Alguns dias atrás, postei sobre o fenômeno da dupla descida para alertar os economistas sobre sua importância. Para ilustrar, usei o seguinte exemplo: 1️⃣ Você deseja encontrar a curva que "melhor" se aproxima de uma função desconhecida gerando 12 observações. 2️⃣ Eu sei que a função de destino é Y = 2(1 - e^{-|x + \sin(x^2)|}), mas você não. Você só sabe que não há ruído no problema. 3️⃣ Você usa, como aproximador, uma rede neural de camada oculta única com ativação de ReLU treinada nessas 12 observações. 4️⃣ Você verifica o que acontece com a aproximação quando aumenta o número de parâmetros na rede neural de 4 para 24.001. 🎥 O filme gif que meu caro coautor @MahdiKahou preparou ilustra os resultados: Caso A. Com um pequeno número de parâmetros (digamos, 7), você se sai mal: a distância l₂ entre sua aproximação treinada (linha azul) e a função alvo (não plotada, apenas os 12 pontos vermelhos extraídos dela) é alta. Caso B. Com ~ 1.000 parâmetros, você atinge o limite de interpolação: a rede se encaixa perfeitamente em todos os 12 pontos, mas a função é muito ondulada. A distância l₂ ainda é alta. Caso C. Com ainda mais parâmetros (por exemplo, 24.001), a aproximação é suavizada e a distância l₂ até a função alvo torna-se muito menor. ⚡ Pontos chave: 1️⃣ Este é apenas um exemplo, mas resultados semelhantes foram documentados em milhares de aplicativos. Não estou reivindicando nenhuma novidade aqui. 2️⃣ O resultado não depende de ter exatamente 12 observações (com mais, a descida dupla aparece mais cedo), da ausência de ruído ou mesmo do uso de redes neurais - você obtém isso com muitos outros aproximadores paramétricos. 3️⃣ Sim, em milhares de aplicações econômicas, você deseja aproximar funções complicadas e de alta dimensão com todos os tipos de formas intrincadas e conhece apenas alguns pontos extraídos delas. 👉 Por que preferir a aproximação suave? Porque, mesmo que sobreparametrizado, generaliza melhor. Se eu tirar novas observações da função alvo (desconhecida para você)...