熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我不認為人們已經意識到這篇來自斯坦福/Nvidia的新TTT + RL論文的結果有多瘋狂。
訓練一個開源模型,他們
- 超越了Deepmind的AlphaEvolve,發現了Erdos的最小重疊問題的新上限
- 開發了新的A100 GPU內核,速度比最佳人類內核快2倍
- 在AtCoder上超越了最佳AI編碼嘗試和人類嘗試
測試時間訓練的想法是,在模型*嘗試*逐步解決任務的同時進行訓練。將這與RL結合,如他們在這篇論文中所做的,為持續學習打開了無限的可能性。
作者:@mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

熱門
排行
收藏
