No creo que la gente se haya dado cuenta de lo increíbles que son los resultados de este nuevo artículo TTT + RL de Stanford/Nvidia. Entrenando un modelo de código abierto, ellos - superar Deepmind AlphaEvolve, descubrió un nuevo límite superior para el problema de solapamiento mínimo de Erdos - Desarrolló nuevos kernels de GPU A100 el doble de veces más rápidos que el mejor kernel humano - Superó al mejor intento de codificación por IA y al intento humano en AtCoder La idea del entrenamiento en tiempo de prueba es entrenar un modelo *mientras* intentando iterativamente resolver una tarea. Combinar esto con el RL, como hacen en este artículo, abre las compuertas de posibilidades para el aprendizaje continuo Autores: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_