Ik denk niet dat mensen zich realiseren hoe gek de resultaten zijn van dit nieuwe TTT + RL-papier van Stanford/Nvidia. Bij het trainen van een open source model, hebben ze - Deepmind AlphaEvolve verslagen, een nieuwe bovengrens ontdekt voor het minimum overlap probleem van Erdos - Nieuwe A100 GPU-kernels ontwikkeld die 2x sneller zijn dan de beste menselijke kernel - De beste AI-coderingspoging en menselijke poging op AtCoder overtroffen Het idee van Test Time Training is om een model te trainen *terwijl* het iteratief probeert een taak op te lossen. Dit combineren met RL zoals ze in dit papier doen, opent de sluizen van mogelijkheden voor continue leren. Auteurs: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_