热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
几天前,我发布了一篇关于双重下降现象的文章,以提醒经济学家们其重要性。
为了说明这一点,我使用了以下示例:
1️⃣ 你想找到一条“最佳”近似未知函数的曲线,该函数生成了12个观测值。
2️⃣ 我知道目标函数是
Y = 2(1 - e^{-|x + \sin(x^2)|}),但你不知道。你只知道问题中没有噪声。
3️⃣ 你使用一个单隐层的神经网络作为近似器,采用ReLU激活,并在这12个观测值上进行训练。
4️⃣ 你检查当你将神经网络中的参数数量从4增加到24,001时,近似情况会发生什么变化。
🎥 我亲爱的合著者@MahdiKahou准备的gif动画展示了结果:
案例A. 当参数数量较少(比如7)时,你的表现不佳:你训练的近似(蓝线)与目标函数(未绘制,仅绘制了从中得出的12个红点)之间的ℓ₂距离很高。
案例B. 当参数数量约为1,000时,你达到了插值阈值:网络完美拟合所有12个点,但函数非常波动。ℓ₂距离仍然很高。
案例C. 当参数数量更多(例如,24,001)时,近似变得平滑,ℓ₂距离目标函数变得小得多。
⚡ 关键点:
1️⃣ 这只是一个例子,但类似的结果在成千上万的应用中都有记录。我在这里并不声称有什么新颖之处。
2️⃣ 结果并不依赖于恰好有12个观测值(如果更多,双重下降会更早出现),也不依赖于噪声的缺失,甚至不依赖于使用神经网络——你可以用许多其他参数化近似器得到相同的结果。
3️⃣ 是的,在成千上万的经济应用中,你想要近似复杂的高维函数,具有各种复杂的形状,而你只知道从中得出的几个点。
👉 为什么更喜欢平滑的近似?因为即使过度参数化,它的泛化能力更强。如果我从(对你未知的)目标函数中绘制新的观测值...
热门
排行
收藏