DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Beberapa hari yang lalu, saya memposting tentang fenomena penurunan ganda untuk memperingatkan para ekonom tentang pentingnya. Untuk mengilustrasikannya, saya menggunakan contoh berikut: 1️⃣ Anda ingin menemukan kurva yang "terbaik" mendekati fungsi yang tidak diketahui yang menghasilkan 12 pengamatan. 2️⃣ Saya tahu fungsi targetnya adalah Y = 2(1 - e^{-|x + \sin(x^2)|}), tetapi Anda tidak. Anda hanya tahu tidak ada kebisingan dalam masalah. 3️⃣ Anda menggunakan, sebagai perkiraan, jaringan saraf lapisan tersembunyi tunggal dengan aktivasi ReLU yang dilatih pada 12 pengamatan ini. 4️⃣ Anda memeriksa apa yang terjadi dengan perkiraan ketika Anda meningkatkan jumlah parameter dalam jaringan saraf dari 4 menjadi 24.001. 🎥 Film gif yang @MahdiKahou disiapkan oleh rekan penulis tersayang saya menggambarkan hasilnya: Kasus A. Dengan sejumlah kecil parameter (katakanlah, 7), Anda melakukannya dengan buruk: jarak l₂ antara perkiraan terlatih Anda (garis biru) dan fungsi target (tidak diplot, hanya 12 titik merah yang ditarik darinya) tinggi. Kasus B. Dengan ~1.000 parameter, Anda mencapai ambang batas interpolasi: jaringan sangat cocok dengan semua 12 titik, tetapi fungsinya sangat goyang. Jarak l₂ masih tinggi. Kasus C. Dengan lebih banyak parameter (misalnya, 24.001), perkiraan menjadi halus, dan jarak l₂ ke fungsi target menjadi jauh lebih kecil. ⚡ Poin-poin penting: 1️⃣ Ini hanya salah satu contoh, tetapi hasil serupa telah didokumentasikan di ribuan aplikasi. Saya tidak mengklaim hal baru apa pun di sini. 2️⃣ Hasilnya tidak bergantung pada memiliki tepat 12 pengamatan (dengan lebih banyak, penurunan ganda muncul lebih cepat), pada kebisingan yang tidak ada, atau bahkan pada penggunaan jaringan saraf - Anda mendapatkannya dengan banyak perkiraan parametrik lainnya. 3️⃣ Ya, dalam ribuan aplikasi ekonomi, Anda ingin memperkirakan fungsi dimensi tinggi yang rumit dengan semua jenis bentuk yang rumit, dan Anda hanya tahu beberapa poin yang diambil darinya. 👉 Mengapa lebih suka perkiraan yang halus? Karena, meskipun terlalu banyak parametri, itu menggeneralisasi lebih baik. Jika saya menarik pengamatan baru dari fungsi target (tidak Anda ketahui)...

Teratas

Peringkat

Favorit