Tôi không nghĩ mọi người đã nhận ra kết quả điên rồ từ bài báo TTT + RL mới này của Stanford/Nvidia. Khi huấn luyện một mô hình mã nguồn mở, họ - đã vượt qua Deepmind AlphaEvolve, phát hiện ra giới hạn trên mới cho bài toán chồng chéo tối thiểu của Erdos - Phát triển các kernel GPU A100 mới nhanh gấp 2 lần so với kernel tốt nhất của con người - Vượt qua nỗ lực lập trình AI tốt nhất và nỗ lực của con người trên AtCoder Ý tưởng của Huấn luyện Thời gian Kiểm tra là huấn luyện một mô hình *trong khi* nó đang cố gắng giải quyết một nhiệm vụ theo cách lặp đi lặp lại. Kết hợp điều này với RL như họ đã làm trong bài báo này mở ra cánh cửa cho vô vàn khả năng cho việc học liên tục. Tác giả: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_