Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Budynek @EurekaLabsAI. Wcześniej dyrektor AI @ Tesla, zespół założycielski @ OpenAI, CS231n/PhD @ Stanford. Lubię trenować duże, głębokie sieci neuronowe.
Trochę głupio, ale wciąż oglądam transmisję na żywo z wydarzenia Apple dotyczącego nowych iPhone'ów, co roku od pierwszego w 2007 roku. To nie ma sensu, ale w porządku. Transmisja na żywo dzisiaj o 10:00 (za 1,5 godziny). W tym roku znowu trzymam kciuki za iPhone'a mini, o którym wiem, że się nie pojawi. rip.
2,38K
Myślę, że jeszcze raz gratulacje dla OpenAI za stworzenie GPT-5 Pro. To już trzeci raz, kiedy zmagałem się z czymś skomplikowanym przez godzinę z przerwami z CC, a potem 5 Pro wyłącza się na 10 minut i wraca z kodem, który działa od razu. Kazałem CC przeczytać wersję 5 Pro, a ona napisała 2 akapity, podziwiając ją (bardzo miłe). Jeśli nie zadajesz mu swoich najtrudniejszych problemów, prawdopodobnie tracisz.
2,84K
W erze wstępnego uczenia, to, co miało znaczenie, to teksty z internetu. Głównie chciałbyś mieć dużą, różnorodną, wysokiej jakości kolekcję dokumentów internetowych, z których można się uczyć.
W erze nadzorowanego dostrajania, to były rozmowy. Zatrudniani są pracownicy kontraktowi do tworzenia odpowiedzi na pytania, trochę jak to, co można zobaczyć na Stack Overflow / Quora, czy innych, ale skierowane w stronę zastosowań LLM.
Żadne z powyższych nie zniknie (moim zdaniem), ale w tej erze uczenia przez wzmocnienie, to teraz środowiska. W przeciwieństwie do powyższych, dają LLM możliwość rzeczywistej interakcji - podejmowania działań, obserwowania wyników itd. Oznacza to, że można mieć nadzieję na znacznie lepsze wyniki niż statystyczna imitacja ekspertów. Mogą być używane zarówno do treningu modelu, jak i oceny. Ale tak jak wcześniej, podstawowym problemem jest teraz potrzeba dużego, różnorodnego, wysokiej jakości zestawu środowisk, jako ćwiczeń dla LLM do praktyki.
W pewnym sensie przypomina mi to pierwszy projekt OpenAI (gym), który był dokładnie ramą mającą na celu zbudowanie dużej kolekcji środowisk w tym samym schemacie, ale to było dużo przed LLM. Tak więc środowiska były prostymi akademickimi zadaniami kontrolnymi tamtych czasów, takimi jak cartpole, ATARI itd. Hub środowisk @PrimeIntellect (i repozytorium `verifiers` na GitHubie) buduje zmodernizowaną wersję, skierowaną specjalnie na LLM, i to jest świetny wysiłek/pomysł. Zasugerowałem, że ktoś zbuduje coś podobnego na początku tego roku:
Środowiska mają tę właściwość, że gdy szkielet ramy jest na miejscu, w zasadzie społeczność/branża może równolegle działać w wielu różnych dziedzinach, co jest ekscytujące.
Ostatnia myśl - osobiście i długoterminowo, jestem optymistyczny co do środowisk i interakcji agentowych, ale pesymistyczny co do uczenia przez wzmocnienie w szczególności. Uważam, że funkcje nagrody są bardzo podejrzane, i myślę, że ludzie nie używają RL do nauki (może robią to w przypadku niektórych zadań motorycznych itd., ale nie w zadaniach rozwiązywania problemów intelektualnych). Ludzie używają różnych paradygmatów uczenia, które są znacznie potężniejsze i bardziej efektywne pod względem próbkowania i które nie zostały jeszcze odpowiednio wynalezione i skalowane, chociaż istnieją wczesne szkice i pomysły (jako jeden przykład, pomysł "uczenia się z podpowiedzi systemowych", przenosząc aktualizację na tokeny/konteksty, a nie wagi i opcjonalnie destylując do wag jako osobny proces, trochę jak sen).

Prime Intellect28 sie 2025
Wprowadzenie do Hubu Środowisk
Środowiska RL są kluczowym wąskim gardłem dla następnej fali postępu w AI, ale duże laboratoria je zamykają
Stworzyliśmy platformę społecznościową do crowdsourcingu otwartych środowisk, aby każdy mógł przyczynić się do otwartego AGI
5,51K
Najlepsze
Ranking
Ulubione