我不認為人們已經意識到這篇來自斯坦福/Nvidia的新TTT + RL論文的結果有多瘋狂。 訓練一個開源模型,他們 - 超越了Deepmind的AlphaEvolve,發現了Erdos的最小重疊問題的新上限 - 開發了新的A100 GPU內核,速度比最佳人類內核快2倍 - 在AtCoder上超越了最佳AI編碼嘗試和人類嘗試 測試時間訓練的想法是,在模型*嘗試*逐步解決任務的同時進行訓練。將這與RL結合,如他們在這篇論文中所做的,為持續學習打開了無限的可能性。 作者:@mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_