熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
幾天前,我發佈了一篇關於雙重下降現象的文章,以提醒經濟學家們其重要性。
為了說明這一點,我使用了以下示例:
1️⃣ 你想找到一條“最佳”近似未知函數的曲線,該函數生成了12個觀測值。
2️⃣ 我知道目標函數是
Y = 2(1 - e^{-|x + \sin(x^2)|}),但你不知道。你只知道問題中沒有噪聲。
3️⃣ 你使用一個單隱層的神經網絡作為近似器,採用ReLU激活,並在這12個觀測值上進行訓練。
4️⃣ 你檢查當你將神經網絡中的參數數量從4增加到24,001時,近似情況會發生什麼變化。
🎥 我親愛的合著者@MahdiKahou準備的gif動畫展示了結果:
案例A. 當參數數量較少(比如7)時,你的表現不佳:你訓練的近似(藍線)與目標函數(未繪製,僅繪製了從中得出的12個紅點)之間的ℓ₂距離很高。
案例B. 當參數數量約為1,000時,你達到了插值閾值:網絡完美擬合所有12個點,但函數非常波動。ℓ₂距離仍然很高。
案例C. 當參數數量更多(例如,24,001)時,近似變得平滑,ℓ₂距離目標函數變得小得多。
⚡ 關鍵點:
1️⃣ 這只是一個例子,但類似的結果在成千上萬的應用中都有記錄。我在這裡並不聲稱有什麼新穎之處。
2️⃣ 結果並不依賴於恰好有12個觀測值(如果更多,雙重下降會更早出現),也不依賴於噪聲的缺失,甚至不依賴於使用神經網絡——你可以用許多其他參數化近似器得到相同的結果。
3️⃣ 是的,在成千上萬的經濟應用中,你想要近似複雜的高維函數,具有各種複雜的形狀,而你只知道從中得出的幾個點。
👉 為什麼更喜歡平滑的近似?因為即使過度參數化,它的泛化能力更強。如果我從(對你未知的)目標函數中繪製新的觀測值...
熱門
排行
收藏