Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Arpit Gupta

Una forma aproximada de pensar en estos resultados: la crítica de Lucas solo se aplica a modelos con unos pocos parámetros. Una vez que agregas una tonelada de parámetros: sorprendentemente, ahora te va mejor en la extrapolación sin microfundamentos

Hace un par de días, publiqué sobre el fenómeno del doble descenso para alertar a los economistas sobre su importancia. Para ilustrarlo, utilicé el siguiente ejemplo: 1️⃣ Desea encontrar la curva que "mejor" se aproxime a una función desconocida generando 12 observaciones. 2️⃣ Sé que la función objetivo es Y = 2(1 - e^{-|x + \sin(x^2)|}), pero no lo haces. Solo sabes que no hay ruido en el problema. 3️⃣ Utiliza, como aproximador, una red neuronal de una sola capa oculta con activación de ReLU entrenada en estas 12 observaciones. 4️⃣ Comprueba lo que sucede con la aproximación cuando aumenta el número de parámetros en la red neuronal de 4 a 24.001. 🎥 La película gif que @MahdiKahou preparado por mi querido coautor ilustra los resultados: Caso A. Con un pequeño número de parámetros (digamos, 7), lo haces mal: la distancia l₂ entre tu aproximación entrenada (línea azul) y la función objetivo (no trazada, solo los 12 puntos rojos extraídos de ella) es alta. Caso B. Con ~ 1,000 parámetros, alcanza el umbral de interpolación: la red se ajusta perfectamente a los 12 puntos, pero la función es muy ondulante. La distancia l₂ sigue siendo alta. Caso C. Con aún más parámetros (por ejemplo, 24.001), la aproximación se suaviza y la distancia l₂ a la función objetivo se vuelve mucho más pequeña. ⚡ Puntos clave: 1️⃣ Este es solo un ejemplo, pero se han documentado resultados similares en miles de aplicaciones. No estoy reclamando ninguna novedad aquí. 2️⃣ El resultado no depende de tener exactamente 12 observaciones (con más, el doble descenso aparece antes), de que el ruido esté ausente o incluso del uso de redes neuronales, lo obtienes con muchos otros aproximadores paramétricos. 3️⃣ Sí, en miles de aplicaciones económicas, desea aproximar funciones complicadas y de alta dimensión con todo tipo de formas intrincadas, y solo conoce algunos puntos extraídos de ellas. 👉 ¿Por qué preferir la aproximación suave? Porque, aunque esté sobreparametrizado, generaliza mejor. Si extraigo nuevas observaciones de la función objetivo (desconocida para usted) Y = 2(1 - e^{-|x + \sin(x^2)|}), La red neuronal con 24.001 parámetros los pronosticará mejor (en promedio) que la que tiene 1.000 parámetros. La publicación original está aquí: Una explicación (parcial) de lo que está sucediendo está aquí: Para obtener muchos más detalles, lea el artículo innovador de Belkin et al. (2019): y algunos artículos interesantes recientes:

Populares

Ranking

Favoritas