Non credo che le persone si siano rese conto di quanto siano straordinari i risultati di questo nuovo articolo TTT + RL di Stanford/Nvidia. Addestrando un modello open source, hanno - battuto Deepmind AlphaEvolve, scoperto un nuovo limite superiore per il problema del minimo sovrapposizione di Erdos - sviluppato nuovi kernel GPU A100 2x più veloci del miglior kernel umano - superato il miglior tentativo di codifica AI e il tentativo umano su AtCoder L'idea del Test Time Training è di addestrare un modello *mentre* sta cercando di risolvere iterativamente un compito. Combinando questo con RL come fanno in questo articolo si aprono le porte a infinite possibilità per l'apprendimento continuo. Autori: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_