神经网络仅在奖励对齐的情况下是良好的优化器
6.91K