幾天前,我發佈了一篇關於雙重下降現象的文章,以提醒經濟學家們其重要性。 為了說明這一點,我使用了以下示例: 1️⃣ 你想找到一條“最佳”近似未知函數的曲線,該函數生成了12個觀測值。 2️⃣ 我知道目標函數是 Y = 2(1 - e^{-|x + \sin(x^2)|}),但你不知道。你只知道問題中沒有噪聲。 3️⃣ 你使用一個單隱層的神經網絡作為近似器,採用ReLU激活,並在這12個觀測值上進行訓練。 4️⃣ 你檢查當你將神經網絡中的參數數量從4增加到24,001時,近似情況會發生什麼變化。 🎥 我親愛的合著者@MahdiKahou準備的gif動畫展示了結果: 案例A. 當參數數量較少(比如7)時,你的表現不佳:你訓練的近似(藍線)與目標函數(未繪製,僅繪製了從中得出的12個紅點)之間的ℓ₂距離很高。 案例B. 當參數數量約為1,000時,你達到了插值閾值:網絡完美擬合所有12個點,但函數非常波動。ℓ₂距離仍然很高。 案例C. 當參數數量更多(例如,24,001)時,近似變得平滑,ℓ₂距離目標函數變得小得多。 ⚡ 關鍵點: 1️⃣ 這只是一個例子,但類似的結果在成千上萬的應用中都有記錄。我在這裡並不聲稱有什麼新穎之處。 2️⃣ 結果並不依賴於恰好有12個觀測值(如果更多,雙重下降會更早出現),也不依賴於噪聲的缺失,甚至不依賴於使用神經網絡——你可以用許多其他參數化近似器得到相同的結果。 3️⃣ 是的,在成千上萬的經濟應用中,你想要近似複雜的高維函數,具有各種複雜的形狀,而你只知道從中得出的幾個點。 👉 為什麼更喜歡平滑的近似?因為即使過度參數化,它的泛化能力更強。如果我從(對你未知的)目標函數中繪製新的觀測值...