Acho que as pessoas não perceberam o quão loucos são os resultados desse novo artigo TTT + RL da Stanford/Nvidia. Treinando um modelo open source, eles - vencer o Deepmind AlphaEvolve, descobriu novo limite superior para o problema de sobreposição mínima de Erdos - Desenvolveu novos kernels de GPU A100 duas vezes mais rápidos que o melhor kernel humano - Superou a melhor tentativa de codificação de IA e a tentativa humana no AtCoder A ideia do Treinamento de Tempo de Teste é treinar um modelo *enquanto* ele tenta resolver uma tarefa de forma iterativa. Combinar isso com a vida real, como fazem neste artigo, abre as portas de possibilidades para aprendizado contínuo Autores: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_