Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Arpit Gupta
Грубый способ подумать об этих результатах: критика Лукаса применима только к моделям с несколькими параметрами.
Как только вы добавляете множество параметров: вы, несколько неожиданно, теперь лучше справляетесь с экстраполяцией без микрооснований.

Jesús Fernández-Villaverde11 часов назад
Несколько дней назад я опубликовал пост о феномене двойного спуска, чтобы предупредить экономистов о его важности.
Чтобы проиллюстрировать это, я использовал следующий пример:
1️⃣ Вы хотите найти кривую, которая «лучше всего» аппроксимирует неизвестную функцию, генерирующую 12 наблюдений.
2️⃣ Я знаю, что целевая функция:
Y = 2(1 - e^{-|x + \sin(x^2)|}), но вы этого не знаете. Вы только знаете, что в задаче нет шума.
3️⃣ Вы используете в качестве аппроксиматора нейронную сеть с одним скрытым слоем и активацией ReLU, обученную на этих 12 наблюдениях.
4️⃣ Вы проверяете, что происходит с аппроксимацией, когда вы увеличиваете количество параметров в нейронной сети с 4 до 24,001.
🎥 Гифка, которую мой дорогой соавтор @MahdiKahou подготовил, иллюстрирует результаты:
Случай A. С небольшим количеством параметров (скажем, 7) вы делаете плохо: ℓ₂ расстояние между вашей обученной аппроксимацией (синяя линия) и целевой функцией (не изображена, только 12 красных точек, взятых из нее) велико.
Случай B. С ~1,000 параметров вы достигаете порога интерполяции: сеть идеально подгоняет все 12 точек, но функция очень извивающаяся. ℓ₂ расстояние все еще велико.
Случай C. С еще большим количеством параметров (например, 24,001) аппроксимация сглаживается, и ℓ₂ расстояние до целевой функции становится намного меньше.
⚡ Ключевые моменты:
1️⃣ Это всего лишь один пример, но аналогичные результаты были задокументированы в тысячах приложений. Я не утверждаю здесь о какой-либо новизне.
2️⃣ Результат не зависит от наличия ровно 12 наблюдений (с большим количеством двойной спуск появляется раньше), от отсутствия шума или даже от использования нейронных сетей — вы получаете это с многими другими параметрическими аппроксиматорами.
3️⃣ Да, в тысячах экономических приложений вы хотите аппроксимировать сложные, многомерные функции со всеми типами замысловатых форм, и вы знаете только несколько точек, взятых из них.
👉 Почему предпочитать гладкую аппроксимацию? Потому что, даже если она переобучена, она обобщает лучше. Если я нарисую новые наблюдения из (неизвестной вам) целевой функции
Y = 2(1 - e^{-|x + \sin(x^2)|}),
нейронная сеть с 24,001 параметрами будет прогнозировать их лучше (в среднем), чем та, что с 1,000 параметрами.
Оригинальный пост здесь:
(Частичное) объяснение того, что происходит, здесь:
Для многих других деталей прочитайте прорывную статью Белкина и др. (2019):
и несколько недавних интересных статей:
407
Топ
Рейтинг
Избранное