深度学习原理与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.2 输入层

卷积神经网络的输入层可以直接接收二维视觉模式,如二维图像,而且不需要再附上像以往机器学习那样由人工事先完成特征设计和提取。特征的提取将由机器自动完成,这是卷积神经网络的一大亮点,极大地减轻了工作量。输入层在接收输入的二维视觉模式后,将输入数据存入二维数值矩阵,比如输入一张彩色图片需要记录二维像素点和RGB通道的多个二维数值矩阵。

与其他神经网络算法类似,由于使用梯度下降算法进行学习,卷积神经网络的输入数值需要进行预处理,预处理方法包括取均值、归一化、PCA/白化等,目的是统一输入数据规格、统一量纲,避免超出激活函数的定义范围,避免出现梯度消失和爆炸等问题。这部分内容见9.2节“数据预处理”。

卷积神经网络输入的图像通常要求是标准大小,且图幅不宜过大。标准大小是为了处理的规范化,控制篇幅的原因是,图幅的增加带来的计算量的增加是数个平方倍数。输入一张尺寸仅为32像素×32像素的彩色图片,由于需要识别彩色,所以需要为每个像素设三个颜色通道:红色、绿色、蓝色(RGB)。为了完成输入,神经网络中的第一层需要32×32×3=3072个用于区别输入数据的连接权重。连接权重的增长几乎是以尺寸的平方数方式增长,如果将图像大小按照公安部规定的身份证制证照片,其尺寸为35mm×25mm,413像素×295像素,那么,需要连接权重365505个,这还仅仅是一层的连接权重。由此可见,尺寸稍大就会带来巨大的计算量的压力。