Кілька днів тому я опублікував пост про феномен подвійного спуску, щоб попередити економістів про його важливість. Щоб проілюструвати це, я навів такий приклад: 1️⃣ Ви хочете знайти криву, яка «найкраще» апроксимує невідому функцію, що генерує 12 спостережень. 2️⃣ Я знаю, що цільова функція є Y = 2(1 - e^{-|x + \sin(x^2)|}), але ви цього не робите. Ви тільки знаєте, що в задачі немає шуму. 3️⃣ Ви використовуєте, як апроксиматор, одношарову нейронну мережу з активацією ReLU, навчену на цих 12 спостереженнях. 4️⃣ Ви перевіряєте, що відбувається з апроксимацією, коли ви збільшуєте кількість параметрів у нейронній мережі з 4 до 24 001. 🎥 Gif-фільм, який мій дорогий співавтор @MahdiKahou підготував, ілюструє результати: Ситуація А. З малою кількістю параметрів (скажімо, 7) ви впораєтеся погано: відстань l₂ між вашим тренованим наближенням (синя лінія) і цільовою функцією (не нанесена, а лише витягнуті з неї 12 червоних точок) висока. Ситуація Б. Маючи ~1 000 параметрів, ви досягаєте порогу інтерполяції: мережа ідеально вміщує всі 12 точок, але функція дуже хитка. Дистанція l₂ все ще висока. Ситуація В. При ще більшій кількості параметрів (наприклад, 24 001) наближення згладжується, а відстань l₂ до цільової функції стає набагато меншою. ⚡ Ключові тези: 1️⃣ Це лише один із прикладів, але подібні результати були задокументовані в тисячах заявок. Я не претендую тут на якусь новизну. 2️⃣ Результат не залежить від наявності рівно 12 спостережень (при більшій кількості подвійний спуск з'являється швидше), від відсутності шуму або навіть від використання нейронних мереж — це можна отримати з багатьма іншими параметричними апроксиматорами. 3️⃣ Так, у тисячах економічних застосувань ви хочете наблизити складні, високорозмірні функції до всіх типів хитромудрих форм, і ви знаєте лише кілька точок, витягнутих з них. 👉 Чому варто віддати перевагу плавному наближенню? Тому що, навіть якщо вона перепараметризована, вона краще узагальнює. Якщо я зроблю нові спостереження з (невідомої вам) цільової функції...