Jag tror inte folk har insett hur galna resultaten är från denna nya TTT + RL-artikel från Stanford/Nvidia. Att träna en öppen källkodsmodell, de - besegrade Deepmind AlphaEvolve, upptäckte ny övre gräns för Erdos minsta överlappningsproblem - Utvecklade nya A100 GPU-kärnor som var två gånger snabbare än den bästa mänskliga kärnan - Överträffade det bästa AI-kodningsförsöket och människans försök på AtCoder Idén med Test Time Training är att träna en modell *samtidigt* den iterativt försöker lösa en uppgift. Att kombinera detta med RL som de gör i denna artikel öppnar upp dammluckorna för kontinuerligt lärande Författare: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_