Vor ein paar Tagen habe ich über das Phänomen des doppelten Abstiegs gepostet, um Ökonomen auf seine Bedeutung aufmerksam zu machen. Um es zu veranschaulichen, habe ich folgendes Beispiel verwendet: 1️⃣ Sie möchten die Kurve finden, die eine unbekannte Funktion, die 12 Beobachtungen generiert, "am besten" approximiert. 2️⃣ Ich weiß, dass die Ziel-Funktion ist Y = 2(1 - e^{-|x + \sin(x^2)|}), aber Sie wissen es nicht. Sie wissen nur, dass es kein Rauschen im Problem gibt. 3️⃣ Sie verwenden als Approximator ein neuronales Netzwerk mit einer versteckten Schicht und ReLU-Aktivierung, das auf diesen 12 Beobachtungen trainiert wurde. 4️⃣ Sie überprüfen, was mit der Approximation passiert, wenn Sie die Anzahl der Parameter im neuronalen Netzwerk von 4 auf 24.001 erhöhen. 🎥 Der gif-Film, den mein lieber Co-Autor @MahdiKahou vorbereitet hat, veranschaulicht die Ergebnisse: Fall A. Mit einer kleinen Anzahl von Parametern (sagen wir, 7) schneiden Sie schlecht ab: der ℓ₂-Abstand zwischen Ihrer trainierten Approximation (blaue Linie) und der Ziel-Funktion (nicht geplottet, nur die 12 roten Punkte, die daraus gezeichnet wurden) ist hoch. Fall B. Mit ~1.000 Parametern erreichen Sie die Interpolationsschwelle: das Netzwerk passt perfekt zu allen 12 Punkten, aber die Funktion ist sehr gewunden. Der ℓ₂-Abstand ist immer noch hoch. Fall C. Mit noch mehr Parametern (z.B. 24.001) glättet sich die Approximation, und der ℓ₂-Abstand zur Ziel-Funktion wird viel kleiner. ⚡ Wichtige Punkte: 1️⃣ Dies ist nur ein Beispiel, aber ähnliche Ergebnisse wurden in Tausenden von Anwendungen dokumentiert. Ich behaupte hier keinerlei Neuheit. 2️⃣ Das Ergebnis hängt nicht davon ab, genau 12 Beobachtungen zu haben (mit mehr erscheint der doppelte Abstieg früher), dass kein Rauschen vorhanden ist oder sogar davon, neuronale Netzwerke zu verwenden – man erhält es mit vielen anderen parametrischen Approximatoren. 3️⃣ Ja, in Tausenden von wirtschaftlichen Anwendungen möchten Sie komplizierte, hochdimensionale Funktionen mit allen Arten von komplexen Formen approximieren, und Sie kennen nur einige Punkte, die daraus gezeichnet wurden. 👉 Warum die glatte Approximation bevorzugen? Weil sie, selbst wenn sie überparametrisiert ist, besser generalisiert. Wenn ich neue Beobachtungen aus der (für Sie unbekannten) Ziel-Funktion ziehe...