For et par dager siden la jeg ut et innlegg om fenomenet dobbel nedstigning for å varsle økonomer om dets betydning. For å illustrere det brukte jeg følgende eksempel: 1️⃣ Du vil finne kurven som "best" tilnærmer seg en ukjent funksjon som genererer 12 observasjoner. 2️⃣ Jeg vet at målfunksjonen er Y = 2(1 - e^{-|x + \sin(x^2)|}), men det gjør du ikke. Du vet bare at det ikke er støy i problemet. 3️⃣ Du bruker, som en approksimator, et nevralt nettverk med ett skjult lag med ReLU-aktivering trent på disse 12 observasjonene. 4️⃣ Du sjekker hva som skjer med tilnærmingen når du øker antall parametere i det nevrale nettverket fra 4 til 24 001. 🎥 Gif-filmen min kjære medforfatter @MahdiKahou utarbeidet illustrerer resultatene: Tilfelle A. Med et lite antall parametere (for eksempel 7) gjør du det dårlig: l₂-avstanden mellom din trente tilnærming (blå linje) og målfunksjonen (ikke plottet, bare de 12 røde punktene trukket fra den) er høy. Tilfelle B. Med ~1,000 parametere når du interpolasjonsterskelen: nettverket passer perfekt til alle 12 punktene, men funksjonen er veldig svingende. L₂-avstanden er fortsatt høy. Tilfelle C. Med enda flere parametere (f.eks. 24 001) jevnes tilnærmingen ut, og l₂-avstanden til målfunksjonen blir mye mindre. ⚡ Viktige punkter: 1️⃣ Dette er bare ett eksempel, men lignende resultater er dokumentert i tusenvis av applikasjoner. Jeg hevder ikke noe nytt overhodet her. 2️⃣ Resultatet avhenger ikke av å ha nøyaktig 12 observasjoner (med flere, dobbel nedstigning vises tidligere), av at støy er fraværende, eller til og med av bruk av nevrale nettverk – du får det med mange andre parametriske tilnærminger. 3️⃣ Ja, i tusenvis av økonomiske applikasjoner ønsker du å tilnærme kompliserte, høydimensjonale funksjoner med alle typer intrikate former, og du kjenner bare noen få punkter hentet fra dem. 👉 Hvorfor foretrekke den jevne tilnærmingen? Fordi, selv om det er overparametrisert, generaliserer det bedre. Hvis jeg trekker nye observasjoner fra (ukjent for deg) målfunksjonen...