一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

幾天前，我發佈了一篇關於雙重下降現象的文章，以提醒經濟學家們其重要性。為了說明這一點，我使用了以下示例： 1️⃣ 你想找到一條“最佳”近似未知函數的曲線，該函數生成了12個觀測值。 2️⃣ 我知道目標函數是 Y = 2(1 - e^{-|x + \sin(x^2)|})，但你不知道。你只知道問題中沒有噪聲。 3️⃣ 你使用一個單隱層的神經網絡作為近似器，採用ReLU激活，並在這12個觀測值上進行訓練。 4️⃣ 你檢查當你將神經網絡中的參數數量從4增加到24,001時，近似情況會發生什麼變化。 🎥 我親愛的合著者@MahdiKahou準備的gif動畫展示了結果：案例A. 當參數數量較少（比如7）時，你的表現不佳：你訓練的近似（藍線）與目標函數（未繪製，僅繪製了從中得出的12個紅點）之間的ℓ₂距離很高。案例B. 當參數數量約為1,000時，你達到了插值閾值：網絡完美擬合所有12個點，但函數非常波動。ℓ₂距離仍然很高。案例C. 當參數數量更多（例如，24,001）時，近似變得平滑，ℓ₂距離目標函數變得小得多。 ⚡ 關鍵點： 1️⃣ 這只是一個例子，但類似的結果在成千上萬的應用中都有記錄。我在這裡並不聲稱有什麼新穎之處。 2️⃣ 結果並不依賴於恰好有12個觀測值（如果更多，雙重下降會更早出現），也不依賴於噪聲的缺失，甚至不依賴於使用神經網絡——你可以用許多其他參數化近似器得到相同的結果。 3️⃣ 是的，在成千上萬的經濟應用中，你想要近似複雜的高維函數，具有各種複雜的形狀，而你只知道從中得出的幾個點。 👉 為什麼更喜歡平滑的近似？因為即使過度參數化，它的泛化能力更強。如果我從（對你未知的）目標函數中繪製新的觀測值...