قبل يومين ، نشرت عن ظاهرة النسب المزدوج لتنبيه الاقتصاديين إلى أهميتها. لتوضيح ذلك ، استخدمت المثال التالي: 1️⃣ تريد العثور على المنحنى الذي يقترب "الأفضل" من دالة غير معروفة ، مما يولد 12 ملاحظة. 2️⃣ أعلم أن الوظيفة المستهدفة هي Y = 2 (1 - e ^ {- |x + \ sin (x ^ 2) |}) ، لكنك لا تفعل ذلك. أنت تعلم فقط أنه لا يوجد ضوضاء في المشكلة. 3️⃣ أنت تستخدم ، كمقربة ، شبكة عصبية أحادية الطبقة مخفية مع تنشيط ReLU مدرب على هذه الملاحظات ال 12. 4️⃣ يمكنك التحقق مما يحدث مع التقريب عند زيادة عدد المعلمات في الشبكة العصبية من 4 إلى 24,001. 🎥 يوضح فيلم gif الذي @MahdiKahou أعدته عزيزي المؤلف المشارك النتائج: الحالة ألف. مع وجود عدد صغير من المعلمات (على سبيل المثال ، 7) ، فإنك تعمل بشكل سيء: المسافة بين التقريب المدرب (الخط الأزرق) والوظيفة المستهدفة (غير مرسومة ، فقط النقاط الحمراء ال 12 المرسومة منه) عالية. الحالة باء. باستخدام ~ 1,000 معلمة ، تصل إلى عتبة الاستيفاء: الشبكة تناسب تماما جميع النقاط ال 12 ، لكن الوظيفة متذبذبة للغاية. المسافة l₂ لا تزال عالية. القضية جيم. مع وجود المزيد من المعلمات (على سبيل المثال ، 24,001) ، ينعم التقريب ، وتصبح المسافة l₂ إلى الوظيفة المستهدفة أصغر بكثير. ⚡ النقاط الرئيسية: 1️⃣ هذا مجرد مثال واحد ، ولكن تم توثيق نتائج مماثلة في آلاف التطبيقات. أنا لا أدعي أي حداثة على الإطلاق هنا. 2️⃣ لا تتوقف النتيجة على وجود 12 ملاحظة بالضبط (مع المزيد ، يظهر النسب المزدوج في وقت أقرب) ، أو على غياب الضوضاء ، أو حتى على استخدام الشبكات العصبية - يمكنك الحصول عليها مع العديد من التقريب البارامتري الآخر. 3️⃣ نعم ، في آلاف التطبيقات الاقتصادية ، تريد تقريب الوظائف المعقدة وعالية الأبعاد مع جميع أنواع الأشكال المعقدة ، وأنت تعرف فقط بضع نقاط مستمدة منها. 👉 لماذا تفضل التقريب السلس؟ لأنه ، حتى لو تم الإفراط في القياس ، فإنه يعمم بشكل أفضل. إذا استخلصت ملاحظات جديدة من الدالة المستهدفة (غير معروفة لك)...