一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

几天前，我发布了一篇关于双重下降现象的文章，以提醒经济学家们其重要性。为了说明这一点，我使用了以下示例： 1️⃣ 你想找到一条“最佳”近似未知函数的曲线，该函数生成了12个观测值。 2️⃣ 我知道目标函数是 Y = 2(1 - e^{-|x + \sin(x^2)|})，但你不知道。你只知道问题中没有噪声。 3️⃣ 你使用一个单隐层的神经网络作为近似器，采用ReLU激活，并在这12个观测值上进行训练。 4️⃣ 你检查当你将神经网络中的参数数量从4增加到24,001时，近似情况会发生什么变化。 🎥 我亲爱的合著者@MahdiKahou准备的gif动画展示了结果：案例A. 当参数数量较少（比如7）时，你的表现不佳：你训练的近似（蓝线）与目标函数（未绘制，仅绘制了从中得出的12个红点）之间的ℓ₂距离很高。案例B. 当参数数量约为1,000时，你达到了插值阈值：网络完美拟合所有12个点，但函数非常波动。ℓ₂距离仍然很高。案例C. 当参数数量更多（例如，24,001）时，近似变得平滑，ℓ₂距离目标函数变得小得多。 ⚡ 关键点： 1️⃣ 这只是一个例子，但类似的结果在成千上万的应用中都有记录。我在这里并不声称有什么新颖之处。 2️⃣ 结果并不依赖于恰好有12个观测值（如果更多，双重下降会更早出现），也不依赖于噪声的缺失，甚至不依赖于使用神经网络——你可以用许多其他参数化近似器得到相同的结果。 3️⃣ 是的，在成千上万的经济应用中，你想要近似复杂的高维函数，具有各种复杂的形状，而你只知道从中得出的几个点。 👉 为什么更喜欢平滑的近似？因为即使过度参数化，它的泛化能力更强。如果我从（对你未知的）目标函数中绘制新的观测值...