Před několika dny jsem zveřejnil příspěvek o fenoménu dvojitého původu, abych upozornil ekonomy na jeho důležitost. Pro ilustraci jsem použil následující příklad: 1️⃣ Chcete najít křivku, která se "nejlépe" blíží neznámé funkci generující 12 pozorování. 2️⃣ Vím, že cílová funkce je Y = 2(1 - e^{-|x + \sin(x^2)|}), ale vy ne. Víte jen, že v problému není žádný šum. 3️⃣ Jako aproximátor používáte neuronovou síť s jednou skrytou vrstvou s aktivací ReLU trénovanou na těchto 12 pozorováních. 4️⃣ Zkontrolujete, co se stane s aproximací, když zvýšíte počet parametrů v neuronové síti ze 4 na 24 001. 🎥 Výsledky ilustruje gif film, který @MahdiKahou můj drahý spoluautor, takto: Případ A. S malým počtem parametrů (řekněme 7) si vedete špatně: vzdálenost l₂ mezi vaší naučenou aproximací (modrá čára) a cílovou funkcí (není vynesena, pouze 12 červených bodů z ní nakresleno) je vysoká. Případ B. S ~1 000 parametry dosáhnete prahu interpolace: síť dokonale odpovídá všem 12 bodům, ale funkce je velmi kroutitá. Vzdálenost l₂ je stále vysoká. Věc C. S ještě více parametry (např. 24 001) se aproximace vyhlazuje a vzdálenost l₂ k cílové funkci se výrazně zmenšuje. ⚡ Klíčové body: 1️⃣ Toto je pouze jeden příklad, ale podobné výsledky byly zdokumentovány v tisících aplikací. Netvrdím, že je zde něco nového. 2️⃣ Výsledek nezávisí na tom, že máme přesně 12 pozorování (s více se dvojitý sestup objeví dříve), na absenci šumu, nebo dokonce na použití neuronových sítí – to získáte s mnoha dalšími parametrickými aproximátory. 3️⃣ Ano, v tisících ekonomických aplikací chcete aproximovat komplikované, vysokodimenzionální funkce se všemi typy složitých tvarů a znáte jen několik bodů z nich vyvozených. 👉 Proč preferovat hladkou aproximaci? Protože, i když je příliš parametrizován, lépe zobecňuje. Pokud vyvodím nová pozorování z (pro vás neznámé) cílové funkce...