DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Arpit Gupta

Un modo approssimativo per pensare a questi risultati: la critica di Lucas si applica solo ai modelli con pochi parametri. Una volta che aggiungi un sacco di parametri: sorprendentemente, ora fai meglio nell'estrapolazione senza microfondazioni.

Qualche giorno fa, ho pubblicato sul fenomeno del double descent per avvisare gli economisti della sua importanza. Per illustrarlo, ho usato il seguente esempio: 1️⃣ Vuoi trovare la curva che "migliore" approssima una funzione sconosciuta che genera 12 osservazioni. 2️⃣ So che la funzione obiettivo è Y = 2(1 - e^{-|x + \sin(x^2)|}), ma tu non lo sai. Sai solo che non c'è rumore nel problema. 3️⃣ Usando come approssimatore una rete neurale a singolo strato nascosto con attivazione ReLU addestrata su queste 12 osservazioni. 4️⃣ Controlli cosa succede con l'approssimazione quando aumenti il numero di parametri nella rete neurale da 4 a 24.001. 🎥 Il gif movie che il mio caro coautore @MahdiKahou ha preparato illustra i risultati: Caso A. Con un numero ridotto di parametri (diciamo, 7), fai male: la distanza ℓ₂ tra la tua approssimazione addestrata (linea blu) e la funzione obiettivo (non tracciata, solo i 12 punti rossi tratti da essa) è alta. Caso B. Con ~1.000 parametri, raggiungi la soglia di interpolazione: la rete si adatta perfettamente a tutti e 12 i punti, ma la funzione è molto ondulata. La distanza ℓ₂ è ancora alta. Caso C. Con ancora più parametri (ad esempio, 24.001), l'approssimazione si smussa e la distanza ℓ₂ dalla funzione obiettivo diventa molto più piccola. ⚡ Punti chiave: 1️⃣ Questo è solo un esempio, ma risultati simili sono stati documentati in migliaia di applicazioni. Non sto rivendicando alcuna novità qui. 2️⃣ Il risultato non dipende dall'avere esattamente 12 osservazioni (con di più, il double descent appare prima), dall'assenza di rumore, o anche dall'uso di reti neurali: lo ottieni con molti altri approssimatori parametrici. 3️⃣ Sì, in migliaia di applicazioni economiche, vuoi approssimare funzioni complicate e ad alta dimensione con tutti i tipi di forme intricate, e sai solo alcuni punti tratti da esse. 👉 Perché preferire l'approssimazione liscia? Perché, anche se sovra-parametrizzata, generalizza meglio. Se disegno nuove osservazioni dalla funzione obiettivo (a te sconosciuta) Y = 2(1 - e^{-|x + \sin(x^2)|}), la rete neurale con 24.001 parametri le preverrà meglio (in media) rispetto a quella con 1.000 parametri. Il post originale è qui: Una (parziale) spiegazione di cosa sta succedendo è qui: Per molti più dettagli, leggi il paper innovativo di Belkin et al. (2019): e alcuni recenti articoli interessanti:

Principali

Ranking

Preferiti