Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Arpit Gupta
Un modo approssimativo per pensare a questi risultati: la critica di Lucas si applica solo ai modelli con pochi parametri.
Una volta che aggiungi un sacco di parametri: sorprendentemente, ora fai meglio nell'estrapolazione senza microfondazioni.

Jesús Fernández-Villaverde3 ore fa
Qualche giorno fa, ho pubblicato sul fenomeno del double descent per avvisare gli economisti della sua importanza.
Per illustrarlo, ho usato il seguente esempio:
1️⃣ Vuoi trovare la curva che "migliore" approssima una funzione sconosciuta che genera 12 osservazioni.
2️⃣ So che la funzione obiettivo è
Y = 2(1 - e^{-|x + \sin(x^2)|}), ma tu non lo sai. Sai solo che non c'è rumore nel problema.
3️⃣ Usando come approssimatore una rete neurale a singolo strato nascosto con attivazione ReLU addestrata su queste 12 osservazioni.
4️⃣ Controlli cosa succede con l'approssimazione quando aumenti il numero di parametri nella rete neurale da 4 a 24.001.
🎥 Il gif movie che il mio caro coautore @MahdiKahou ha preparato illustra i risultati:
Caso A. Con un numero ridotto di parametri (diciamo, 7), fai male: la distanza ℓ₂ tra la tua approssimazione addestrata (linea blu) e la funzione obiettivo (non tracciata, solo i 12 punti rossi tratti da essa) è alta.
Caso B. Con ~1.000 parametri, raggiungi la soglia di interpolazione: la rete si adatta perfettamente a tutti e 12 i punti, ma la funzione è molto ondulata. La distanza ℓ₂ è ancora alta.
Caso C. Con ancora più parametri (ad esempio, 24.001), l'approssimazione si smussa e la distanza ℓ₂ dalla funzione obiettivo diventa molto più piccola.
⚡ Punti chiave:
1️⃣ Questo è solo un esempio, ma risultati simili sono stati documentati in migliaia di applicazioni. Non sto rivendicando alcuna novità qui.
2️⃣ Il risultato non dipende dall'avere esattamente 12 osservazioni (con di più, il double descent appare prima), dall'assenza di rumore, o anche dall'uso di reti neurali: lo ottieni con molti altri approssimatori parametrici.
3️⃣ Sì, in migliaia di applicazioni economiche, vuoi approssimare funzioni complicate e ad alta dimensione con tutti i tipi di forme intricate, e sai solo alcuni punti tratti da esse.
👉 Perché preferire l'approssimazione liscia? Perché, anche se sovra-parametrizzata, generalizza meglio. Se disegno nuove osservazioni dalla funzione obiettivo (a te sconosciuta)
Y = 2(1 - e^{-|x + \sin(x^2)|}),
la rete neurale con 24.001 parametri le preverrà meglio (in media) rispetto a quella con 1.000 parametri.
Il post originale è qui:
Una (parziale) spiegazione di cosa sta succedendo è qui:
Per molti più dettagli, leggi il paper innovativo di Belkin et al. (2019):
e alcuni recenti articoli interessanti:
314
Il problema più grande che praticamente ogni discussione di panel affronta è la mancanza di dibattito tra i relatori.
Attraverso chiamate preliminari e una cordialità di base, ci sono motivi per raggiungere un consenso. Ma questo è molto noioso per il pubblico! Vogliono vedere qualche scintilla volare.
52
Principali
Ranking
Preferiti