Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Bâtiment @EurekaLabsAI. Précédemment directeur de l’IA @ Tesla, équipe fondatrice @ OpenAI, CS231n/PhD @ Stanford. J’aime entraîner de grands réseaux neuronaux profonds.
C'est un peu idiot, mais je regarde toujours le livestream de l'événement Apple pour les nouveaux iPhones, chaque année depuis le premier en 2007. Ça n'a pas de sens, mais c'est comme ça. Livestream aujourd'hui à 10h (dans 1,5 heures). Cette année, je croise les doigts encore pour un iPhone mini que je sais qui ne viendra pas. rip.
2,39K
Je pense que félicitations encore à OpenAI pour avoir concocté GPT-5 Pro. C'est la troisième fois que je lutte sur quelque chose de complexe/difficile pendant une heure par intermittence avec CC, puis 5 Pro s'arrête pendant 10 minutes et revient avec un code qui fonctionne immédiatement. J'ai fait lire la version 5 Pro à CC et elle a rédigé 2 paragraphes pour l'admirer (très touchant). Si vous ne lui posez pas vos problèmes les plus difficiles, vous passez probablement à côté.
2,84K
À l'ère du pré-entraînement, ce qui comptait, c'était le texte d'internet. Vous voudriez principalement une grande collection diversifiée et de haute qualité de documents internet à partir desquels apprendre.
À l'ère du finetuning supervisé, ce sont les conversations qui comptaient. Des travailleurs sous contrat sont engagés pour créer des réponses à des questions, un peu comme ce que vous verriez sur Stack Overflow / Quora, etc., mais orienté vers les cas d'utilisation des LLM.
Aucun des deux précédents ne disparaîtra (à mon avis), mais à cette époque de l'apprentissage par renforcement, ce sont maintenant les environnements qui comptent. Contrairement aux précédents, ils donnent au LLM l'opportunité d'interagir réellement - de prendre des actions, de voir des résultats, etc. Cela signifie que vous pouvez espérer faire beaucoup mieux qu'une imitation experte statistique. Et ils peuvent être utilisés à la fois pour l'entraînement et l'évaluation du modèle. Mais tout comme auparavant, le problème central est maintenant de nécessiter un ensemble large, diversifié et de haute qualité d'environnements, comme exercices pour que le LLM puisse s'entraîner.
D'une certaine manière, je me rappelle du tout premier projet d'OpenAI (gym), qui était exactement un cadre espérant construire une grande collection d'environnements dans le même schéma, mais c'était bien avant les LLM. Donc, les environnements étaient des tâches de contrôle académique simples de l'époque, comme cartpole, ATARI, etc. Le hub d'environnements @PrimeIntellect (et le dépôt `verifiers` sur GitHub) construit la version modernisée ciblant spécifiquement les LLM, et c'est un grand effort/une grande idée. J'ai proposé que quelqu'un construise quelque chose comme ça plus tôt cette année :
Les environnements ont la propriété qu'une fois que le squelette du cadre est en place, en principe, la communauté/l'industrie peut paralléliser à travers de nombreux domaines différents, ce qui est excitant.
Dernière pensée - personnellement et à long terme, je suis optimiste sur les environnements et les interactions agentiques mais je suis pessimiste sur l'apprentissage par renforcement spécifiquement. Je pense que les fonctions de récompense sont super suspectes, et je pense que les humains n'utilisent pas l'apprentissage par renforcement pour apprendre (peut-être le font-ils pour certaines tâches motrices, etc., mais pas pour des tâches de résolution de problèmes intellectuels). Les humains utilisent différents paradigmes d'apprentissage qui sont significativement plus puissants et efficaces en échantillonnage et qui n'ont pas encore été correctement inventés et mis à l'échelle, bien que des esquisses et des idées précoces existent (comme juste un exemple, l'idée de "l'apprentissage par prompt système", déplaçant la mise à jour vers des tokens/contextes et non des poids et distillant éventuellement vers des poids comme un processus séparé un peu comme le sommeil le fait).

Prime Intellect28 août 2025
Présentation du Hub des Environnements
Les environnements RL sont le principal goulot d'étranglement pour la prochaine vague de progrès en IA, mais les grands laboratoires les verrouillent
Nous avons construit une plateforme communautaire pour le crowdsourcing d'environnements ouverts, afin que chacun puisse contribuer à l'AGI open-source.
5,52K
Meilleurs
Classement
Favoris