Я не думаю, что люди осознали, насколько безумны результаты этой новой статьи TTT + RL от Стэнфорда/Nvidia. Обучая модель с открытым исходным кодом, они - обошли Deepmind AlphaEvolve, открыли новую верхнюю границу для минимальной проблемы перекрытия Эрдеша - разработали новые ядра GPU A100, которые в 2 раза быстрее, чем лучшее человеческое ядро - превзошли лучшие попытки ИИ и человека в кодировании на AtCoder Идея обучения во время тестирования заключается в том, чтобы обучать модель *в то время как* она итеративно пытается решить задачу. Сочетание этого с RL, как они делают в этой статье, открывает ворота возможностей для непрерывного обучения. Авторы: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_