当我们使用神经网络来作为模型解决任务时,如何训练神经网络将会成为一个重要的问题,我们把特征变换参数化,就意味着需要学习其中的参数。很多人的认识里,误差反向传播算法作为神经网络训练的标准框架,其训练本质就是链式法则,但它其实只是比极大似然估计更为高效的训练而已。同时,神经网络的训练是非凸优化,理论分析较为有限,工程上的技巧更为重要。