一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我不認為人們已經意識到這篇來自斯坦福/Nvidia的新TTT + RL論文的結果有多瘋狂。訓練一個開源模型，他們 - 超越了Deepmind的AlphaEvolve，發現了Erdos的最小重疊問題的新上限 - 開發了新的A100 GPU內核，速度比最佳人類內核快2倍 - 在AtCoder上超越了最佳AI編碼嘗試和人類嘗試測試時間訓練的想法是，在模型*嘗試*逐步解決任務的同時進行訓練。將這與RL結合，如他們在這篇論文中所做的，為持續學習打開了無限的可能性。作者：@mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_