数日前、私はエコノミストにその重要性を警告するために、二重降下現象について投稿しました。 それを説明するために、次の例を使用しました。 1️⃣ 12 個の観測値を生成する未知の関数に「最適」に近似する曲線を見つけたいと考えています。 2️⃣ ターゲット関数が Y = 2(1 - e^{-|x + \sin(x^2)|}) ですが、そうではありません。問題にノイズがないことだけがわかります。 3️⃣ 近似量として、これら 12 の観測値でトレーニングされた ReLU 活性化を備えた単一隠れ層ニューラル ネットワークを使用します。 4️⃣ ニューラルネットワークのパラメータ数を4から24,001に増やしたときに近似で何が起こるかを確認します。 🎥 私の親愛なる共著者が準備したgifムービー@MahdiKahou、その結果を示しています。 ケースA。パラメータの数が少ない(たとえば、7つ)と、学習済みの近似(青い線)とターゲット関数(プロットされておらず、そこから描画された12個の赤い点のみ)の間のl₂距離は高いです。 ケースB。~1,000 個のパラメータを使用すると、補間しきい値に達します: ネットワークは 12 点すべてに完全に適合しますが、関数は非常にぐらくねっています。l₂距離はまだ高いです。 ケースC。さらに多くのパラメータ(たとえば、24,001)を使用すると、近似が平滑化され、ターゲット関数までのl₂距離が大幅に小さくなります。 ⚡ キーポイント: 1️⃣これは一例にすぎませんが、同様の結果が何千ものアプリケーションで文書化されています。私はここで目新しさを主張しているわけではありません。 2️⃣ 結果は、正確に 12 個の観測値 (それが多いほど、二重降下が早く現れる)、ノイズがないかどうか、またはニューラル ネットワークを使用することに依存するのではなく、他の多くのパラメトリック近似器でも得られます。 3️⃣ はい、何千もの経済アプリケーションでは、あらゆる種類の複雑な形状を持つ複雑で高次元の関数を近似したいのですが、そこから引き出されたいくつかの点しか知りません。 👉 なぜ滑らかな近似を好むのですか?なぜなら、たとえ過剰にパラメータ化されたとしても、よりよく一般化されるからです。(あなたには知られていない)ターゲット関数から新しい観測値を引き出すと...