Ich glaube nicht, dass den Leuten bewusst ist, wie verrückt die Ergebnisse aus diesem neuen TTT + RL-Papier von Stanford/Nvidia sind. Bei der Ausbildung eines Open-Source-Modells haben sie - Deepmind AlphaEvolve geschlagen, eine neue obere Grenze für Erdos' Minimum-Überlappungsproblem entdeckt - Neue A100 GPU-Kerne entwickelt, die 2x schneller sind als der beste menschliche Kern - Die besten KI-Coding-Versuche und menschlichen Versuche auf AtCoder übertroffen Die Idee des Test Time Training besteht darin, ein Modell *während* des iterativen Versuchs, eine Aufgabe zu lösen, zu trainieren. Dies mit RL zu kombinieren, wie sie es in diesem Papier tun, öffnet die Flut von Möglichkeiten für kontinuierliches Lernen. Autoren: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_