Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Здание @EurekaLabsAI. Ранее директор по искусственному интеллекту @ Tesla, команда основателей @ OpenAI, CS231n/PhD @ Stanford. Мне нравится обучать большие глубокие нейронные сети.
Это немного глупо, но я все равно смотрю прямую трансляцию мероприятия Apple по новым iPhone каждый год с первого в 2007 году. Это не имеет смысла, но ничего. Прямая трансляция сегодня в 10 утра (через 1,5 часа). В этом году снова надеюсь на iPhone mini, который, как я знаю, не выйдет. покойся с миром.
2,4K
Считаю, что снова поздравляю OpenAI с успехом в разработке GPT-5 Pro. Это уже третий раз, когда я сталкиваюсь с чем-то сложным/запутанным в течение часа с CC, а затем 5 Pro отключается на 10 минут и возвращается с кодом, который работает сразу. Я заставил CC прочитать версию 5 Pro, и он написал 2 абзаца, восхищаясь ею (очень мило). Если вы не даете ему свои самые сложные задачи, вы, вероятно, упускаете что-то важное.
2,86K
В эпоху предварительного обучения важен был текст из интернета. Вам в первую очередь нужна была большая, разнообразная, качественная коллекция интернет-документов для обучения.
В эпоху контролируемой донастройки важны были разговоры. Наемные работники нанимаются для создания ответов на вопросы, немного похоже на то, что вы видите на Stack Overflow / Quora и т.д., но ориентировано на случаи использования LLM.
Ни одно из двух вышеупомянутых не исчезнет (по моему мнению), но в этой эпохе обучения с подкреплением важны теперь среды. В отличие от вышеупомянутого, они дают LLM возможность действительно взаимодействовать - предпринимать действия, видеть результаты и т.д. Это означает, что вы можете надеяться добиться гораздо лучших результатов, чем статистическая имитация эксперта. И их можно использовать как для обучения модели, так и для оценки. Но, как и прежде, основной проблемой сейчас является необходимость в большом, разнообразном, качественном наборе сред, как упражнения для LLM для практики.
В некотором смысле, я вспоминаю о самом первом проекте OpenAI (gym), который был именно фреймворком, надеющимся создать большую коллекцию сред в одной и той же схеме, но это было задолго до LLM. Поэтому среды были простыми академическими контрольными задачами того времени, такими как cartpole, ATARI и т.д. Хаб сред @PrimeIntellect (и репозиторий `verifiers` на GitHub) создает модернизированную версию, специально нацеленную на LLM, и это отличное усилие/идея. Я предложил, чтобы кто-то построил что-то подобное в начале этого года:
У сред есть свойство, что как только скелет фреймворка на месте, в принципе, сообщество/индустрия могут параллелизировать по многим различным областям, что захватывающе.
Последняя мысль - лично и в долгосрочной перспективе я оптимистично настроен по поводу сред и агентных взаимодействий, но пессимистично по поводу обучения с подкреплением в частности. Я думаю, что функции вознаграждения очень подозрительны, и я думаю, что люди не используют RL для обучения (возможно, они делают это для некоторых моторных задач и т.д., но не для интеллектуальных задач решения проблем). Люди используют разные парадигмы обучения, которые значительно более мощные и эффективные по выборке и которые еще не были должным образом изобретены и масштабированы, хотя ранние эскизы и идеи существуют (в качестве одного примера, идея "обучения по системным подсказкам", перемещение обновления к токенам/контекстам, а не весам и, возможно, дистилляция в веса как отдельный процесс, немного как сон).

Prime Intellect28 авг. 2025 г.
Представляем Хаб Окружений
Окружения RL являются ключевым узким местом для следующей волны прогресса в области ИИ, но крупные лаборатории их закрывают
Мы создали платформу сообщества для краудсорсинга открытых окружений, чтобы любой мог внести свой вклад в открытый AGI
5,53K
Топ
Рейтинг
Избранное