Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я не думаю, что люди осознали, насколько безумны результаты этой новой статьи TTT + RL от Стэнфорда/Nvidia.
Обучая модель с открытым исходным кодом, они
- обошли Deepmind AlphaEvolve, открыли новую верхнюю границу для минимальной проблемы перекрытия Эрдеша
- разработали новые ядра GPU A100, которые в 2 раза быстрее, чем лучшее человеческое ядро
- превзошли лучшие попытки ИИ и человека в кодировании на AtCoder
Идея обучения во время тестирования заключается в том, чтобы обучать модель *в то время как* она итеративно пытается решить задачу. Сочетание этого с RL, как они делают в этой статье, открывает ворота возможностей для непрерывного обучения.
Авторы: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

Топ
Рейтинг
Избранное
