Nemyslím si, že si lidé uvědomili, jak šílené jsou výsledky z tohoto nového článku TTT + RL od Stanfordu/Nvidie. Trénují open source model - porazit Deepmind AlphaEvolve, objevit novou horní hranici pro Erdosův problém minimálního překryvu - Vyvinul nová jádra GPU A100 dvakrát rychleji než nejlepší lidské jádro - Překonal nejlepší pokus o AI kódování a lidský pokus na AtCoderu Myšlenkou tréninku při testování je trénovat model *zatímco se* snaží iterativně vyřešit úkol. Kombinace tohoto s RL, jak je to v tomto článku, otevírá stavidla možností pro kontinuální učení Autoři: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_