Nu cred că oamenii și-au dat seama cât de nebunești sunt rezultatele acestui nou articol TTT + RL de la Stanford/Nvidia. Antrenând un model open source, ei - a depășit Deepmind AlphaEvolve, a descoperit o nouă limită superioară pentru problema suprapunerii minime a lui Erdos - A dezvoltat noi nuclee GPU A100 de două ori mai rapide decât cel mai bun kernel uman - A depășit cea mai bună încercare de codare AI și cea umană de pe AtCoder Ideea antrenamentului Test Time este să antrenezi un model *în timp ce* acesta încearcă iterativ să rezolve o sarcină. Combinarea acestui lucru cu RL, așa cum fac în această lucrare, deschide porțile posibilităților pentru învățarea continuă Autori: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_