Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Кілька днів тому я опублікував пост про феномен подвійного спуску, щоб попередити економістів про його важливість.
Щоб проілюструвати це, я навів такий приклад:
1️⃣ Ви хочете знайти криву, яка «найкраще» апроксимує невідому функцію, що генерує 12 спостережень.
2️⃣ Я знаю, що цільова функція є
Y = 2(1 - e^{-|x + \sin(x^2)|}), але ви цього не робите. Ви тільки знаєте, що в задачі немає шуму.
3️⃣ Ви використовуєте, як апроксиматор, одношарову нейронну мережу з активацією ReLU, навчену на цих 12 спостереженнях.
4️⃣ Ви перевіряєте, що відбувається з апроксимацією, коли ви збільшуєте кількість параметрів у нейронній мережі з 4 до 24 001.
🎥 Gif-фільм, який мій дорогий співавтор @MahdiKahou підготував, ілюструє результати:
Ситуація А. З малою кількістю параметрів (скажімо, 7) ви впораєтеся погано: відстань l₂ між вашим тренованим наближенням (синя лінія) і цільовою функцією (не нанесена, а лише витягнуті з неї 12 червоних точок) висока.
Ситуація Б. Маючи ~1 000 параметрів, ви досягаєте порогу інтерполяції: мережа ідеально вміщує всі 12 точок, але функція дуже хитка. Дистанція l₂ все ще висока.
Ситуація В. При ще більшій кількості параметрів (наприклад, 24 001) наближення згладжується, а відстань l₂ до цільової функції стає набагато меншою.
⚡ Ключові тези:
1️⃣ Це лише один із прикладів, але подібні результати були задокументовані в тисячах заявок. Я не претендую тут на якусь новизну.
2️⃣ Результат не залежить від наявності рівно 12 спостережень (при більшій кількості подвійний спуск з'являється швидше), від відсутності шуму або навіть від використання нейронних мереж — це можна отримати з багатьма іншими параметричними апроксиматорами.
3️⃣ Так, у тисячах економічних застосувань ви хочете наблизити складні, високорозмірні функції до всіх типів хитромудрих форм, і ви знаєте лише кілька точок, витягнутих з них.
👉 Чому варто віддати перевагу плавному наближенню? Тому що, навіть якщо вона перепараметризована, вона краще узагальнює. Якщо я зроблю нові спостереження з (невідомої вам) цільової функції...
Найкращі
Рейтинг
Вибране