Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Arpit Gupta

Грубый способ подумать об этих результатах: критика Лукаса применима только к моделям с несколькими параметрами. Как только вы добавляете множество параметров: вы, несколько неожиданно, теперь лучше справляетесь с экстраполяцией без микрооснований.

Несколько дней назад я опубликовал пост о феномене двойного спуска, чтобы предупредить экономистов о его важности. Чтобы проиллюстрировать это, я использовал следующий пример: 1️⃣ Вы хотите найти кривую, которая «лучше всего» аппроксимирует неизвестную функцию, генерирующую 12 наблюдений. 2️⃣ Я знаю, что целевая функция: Y = 2(1 - e^{-|x + \sin(x^2)|}), но вы этого не знаете. Вы только знаете, что в задаче нет шума. 3️⃣ Вы используете в качестве аппроксиматора нейронную сеть с одним скрытым слоем и активацией ReLU, обученную на этих 12 наблюдениях. 4️⃣ Вы проверяете, что происходит с аппроксимацией, когда вы увеличиваете количество параметров в нейронной сети с 4 до 24,001. 🎥 Гифка, которую мой дорогой соавтор @MahdiKahou подготовил, иллюстрирует результаты: Случай A. С небольшим количеством параметров (скажем, 7) вы делаете плохо: ℓ₂ расстояние между вашей обученной аппроксимацией (синяя линия) и целевой функцией (не изображена, только 12 красных точек, взятых из нее) велико. Случай B. С ~1,000 параметров вы достигаете порога интерполяции: сеть идеально подгоняет все 12 точек, но функция очень извивающаяся. ℓ₂ расстояние все еще велико. Случай C. С еще большим количеством параметров (например, 24,001) аппроксимация сглаживается, и ℓ₂ расстояние до целевой функции становится намного меньше. ⚡ Ключевые моменты: 1️⃣ Это всего лишь один пример, но аналогичные результаты были задокументированы в тысячах приложений. Я не утверждаю здесь о какой-либо новизне. 2️⃣ Результат не зависит от наличия ровно 12 наблюдений (с большим количеством двойной спуск появляется раньше), от отсутствия шума или даже от использования нейронных сетей — вы получаете это с многими другими параметрическими аппроксиматорами. 3️⃣ Да, в тысячах экономических приложений вы хотите аппроксимировать сложные, многомерные функции со всеми типами замысловатых форм, и вы знаете только несколько точек, взятых из них. 👉 Почему предпочитать гладкую аппроксимацию? Потому что, даже если она переобучена, она обобщает лучше. Если я нарисую новые наблюдения из (неизвестной вам) целевой функции Y = 2(1 - e^{-|x + \sin(x^2)|}), нейронная сеть с 24,001 параметрами будет прогнозировать их лучше (в среднем), чем та, что с 1,000 параметрами. Оригинальный пост здесь: (Частичное) объяснение того, что происходит, здесь: Для многих других деталей прочитайте прорывную статью Белкина и др. (2019): и несколько недавних интересных статей:

Топ

Рейтинг

Избранное