Не думаю, що люди усвідомлювали, наскільки шаленими є результати цієї нової статті TTT + RL від Stanford/Nvidia. Навчання моделі з відкритим кодом, вони - переміг Deepmind AlphaEvolve, відкрив нову верхню межу для задачі мінімального перекриття Ердоса - Розроблено нові ядра GPU A100 у 2 рази швидше за найкраще ядро людини - Перевершив найкращу спробу кодування ШІ та людську роботу на AtCoder Ідея тренування під час тесту полягає в тому, щоб навчати модель *поки* вона ітеративно намагається розв'язати завдання. Поєднання цього з RL, як це зроблено в цій статті, відкриває шлюзи для безперервного навчання Автори: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_