Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nemyslím si, že si lidé uvědomili, jak šílené jsou výsledky z tohoto nového článku TTT + RL od Stanfordu/Nvidie.
Trénují open source model
- porazit Deepmind AlphaEvolve, objevit novou horní hranici pro Erdosův problém minimálního překryvu
- Vyvinul nová jádra GPU A100 dvakrát rychleji než nejlepší lidské jádro
- Překonal nejlepší pokus o AI kódování a lidský pokus na AtCoderu
Myšlenkou tréninku při testování je trénovat model *zatímco se* snaží iterativně vyřešit úkol. Kombinace tohoto s RL, jak je to v tomto článku, otevírá stavidla možností pro kontinuální učení
Autoři: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

Top
Hodnocení
Oblíbené
