DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Een paar dagen geleden heb ik een bericht gepost over het dubbele afdaalfenomeen om economen te waarschuwen voor het belang ervan. Om het te illustreren, gebruikte ik het volgende voorbeeld: 1️⃣ Je wilt de curve vinden die "het beste" een onbekende functie benadert die 12 waarnemingen genereert. 2️⃣ Ik weet dat de doelfunctie is Y = 2(1 - e^{-|x + \sin(x^2)|}), maar jij weet dat niet. Je weet alleen dat er geen ruis in het probleem is. 3️⃣ Je gebruikt, als benaderaar, een neuraal netwerk met één verborgen laag met ReLU-activatie dat is getraind op deze 12 waarnemingen. 4️⃣ Je controleert wat er gebeurt met de benadering wanneer je het aantal parameters in het neuraal netwerk verhoogt van 4 naar 24.001. 🎥 De gif-film die mijn beste co-auteur @MahdiKahou heeft voorbereid, illustreert de resultaten: Geval A. Met een klein aantal parameters (zeg, 7), presteer je slecht: de ℓ₂ afstand tussen je getrainde benadering (blauwe lijn) en de doelfunctie (niet uitgezet, alleen de 12 rode punten die daaruit zijn getrokken) is hoog. Geval B. Met ~1.000 parameters bereik je de interpolatiedrempel: het netwerk past perfect op alle 12 punten, maar de functie is erg kronkelig. De ℓ₂ afstand is nog steeds hoog. Geval C. Met nog meer parameters (bijv. 24.001), wordt de benadering gladder, en de ℓ₂ afstand tot de doelfunctie wordt veel kleiner. ⚡ Belangrijke punten: 1️⃣ Dit is slechts één voorbeeld, maar soortgelijke resultaten zijn gedocumenteerd in duizenden toepassingen. Ik beweer hier absoluut geen nieuwigheid. 2️⃣ Het resultaat hangt niet af van het hebben van precies 12 waarnemingen (met meer verschijnt dubbele afdaal eerder), van het ontbreken van ruis, of zelfs van het gebruik van neurale netwerken - je krijgt het met veel andere parametrische benaders. 3️⃣ Ja, in duizenden economische toepassingen wil je ingewikkelde, hoog-dimensionale functies benaderen met allerlei soorten ingewikkelde vormen, en je weet alleen een paar punten die daaruit zijn getrokken. 👉 Waarom de gladde benadering verkiezen? Omdat, zelfs als het overgeparametriseerd is, het beter generaliseert. Als ik nieuwe waarnemingen trek uit de (voor jou onbekende) doelfunctie...

Boven

Positie

Favorieten