Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg tror ikke folk har innsett hvor sprø resultatene fra denne nye TTT + RL-artikkelen fra Stanford/Nvidia er.
De trener en åpen kildekode-modell, de
- slo Deepmind AlphaEvolve, oppdaget ny øvre grense for Erdos' minimum overlap-problem
- Utviklet nye A100 GPU-kjerner 2 ganger raskere enn den beste menneskelige kjernen
- Overgikk det beste AI-kodingsforsøket og det beste menneskelige forsøket på AtCoder
Ideen med Test Time Training er å trene en modell *mens* den iterativt prøver å løse en oppgave. Å kombinere dette med RL slik de gjør i denne artikkelen, åpner slusene for muligheter for kontinuerlig læring
Forfattere: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

Topp
Rangering
Favoritter
