学界 信息论视角下的深度学习简述形式化的泛化误差分析

学界 信息论视角下的深度学习简述形式化的泛化误差分析

更新时间:2019-07-16 18:34点击数:文字大小:

  原题目:学界 消息论视角下的深度进修简述,方法化的泛化差错理解 选自arXiv 呆板之心编译 参

  本论文从消息论的角度扼要概述了深度进修,试图管理这两个题目:(1) 深度神经汇集为什么比浅层汇集的泛化才具好?(2) 是否正在全体场景下,更深层的神经汇集的成果都更好?

  摘要:深度进修转移了估计机视觉、自然措辞治理和语音识别界限。但再有两个依旧隐约的闭头题目:(1) 深度神经汇集为什么比浅层汇集的泛化才具好?(2) 是否正在全体场景下,更深层的神经汇集的成果都更好?的确而言,令 L 流露某一深度神经汇集中的卷积层和池化层层数,n 流露教练样本量,咱们可推导出此汇集的渴望泛化差错上界:

  此中,σ0 为常量,依赖于耗费函数; 0η1 为另一常量,依赖于每个卷积或池化层上的消息耗费(information loss);I(S,W) 为教练样本 S 和输出假设 W 间的互消息。据此上界能够得出:(1) 跟着神经汇集中卷积层和池化层个数 L 的添补,渴望泛化差错呈指数降低至 0。带有厉刻消息耗费的层(如卷积层),能够低浸深度进修算法的泛化差错;这答复了上文中的第一个题目。不过,(2) 算法的渴望泛化差错为 0 并不虞味着测试差错或 E[R(W)] 很小,由于跟着层数添补,用于拟合数据的消息产生耗费时,E[R_S(W)] 会增大。这注明「神经汇集越深越好」的说法仅正在测试差错或 E[R_S(W)] 较小的条目下创立。88pt88(3) 咱们进一步展现了深度进修算法餍足安闲性的弱观念;跟着 L 的添补,深度进修算法的样本繁杂度会低浸。

  咱们钻探了统计进修的圭表框架,此中 Z 流露示例空间(instance space),W 流露假设空间(hypothesis space),n 元组 S = (Z_1, Z_2, ..., Z_n) 流露教练样本,全体元素 Z_i 为从未知分散 D 中抽样取得的独立同分散样本。进修算法 A : S → W 能够分析为从教练样本空间 Z^n 到假设空间 W 上的随机照射。愚弄马尔科夫核 P_WS 来形容进修算法 A:给定教练样本 S,算法按照条目分散 P_WS 从 W 中抽取一个假设。

  咱们引入耗费函数行为某假设预测成果的襟怀。对恣意通过 S 学得的假设 W,咱们将渴望危害界说为:

  等式右侧第一项为渴望泛化差错,第二项则反应了正在渴望的角度下,学得假设对教练样本的拟合水准。

  正在计划进修算法时,咱们生机渴望危害的渴望 E[R(W)] 越小越好。但寻常,很难同季节渴望泛化差错 G(D,P_WS) 和渴望阅历危害 E[R_S(W)] 都很小:借使某个模子对教练样本的拟合过于好,则它正在测试数据上的泛化才具就可以很差,这即是「差错-方差量度题目」(Domingos, 2000)。惊人的是,按照实证阅历,深度进修算法不妨很好地同时最小化 G(D, P_WS) 和 E[R_S(W)]。深度汇集的深层架构不妨有用地紧凑外征高变函数(highly-varying function),进而令 E[R_S(W)] 很小。但闭于渴望泛化差错 G(D, P_WS) 不妨连结很小的缘由的外面钻探依旧不精确。

  正在本文中,咱们从消息论角度开赴钻探深度进修算法的渴望泛化差错。咱们外明了跟着层数添补,渴望泛化差错 G(D, P_WS) 会呈指数降低至 0。正在定理 2 中,咱们外明了:

  此中,L 是深度神经汇集中的消息耗费层层数;0η1 为另一常量,依赖于每个卷积层和池化层上的消息耗费;σ0 为常量,依赖于耗费函数;n 为教练样本 S 的样本量巨细;I(S, W) 为输入教练样本 S 和输出假设 W 间的互消息。

  咱们的结果与「差错-方差量度题目」并不冲突。尽量跟着消息耗费层层数添补,渴望泛化差错呈指数降低至 0;但因为消息耗费倒霉于拟合教练样本,于是渴望阅历危害 𝔼[R_S(W)] 会有所添补。这意味着,正在计划深度进修算法时,必要更众地体贴消息耗费和教练差错之间的均衡。

  本文其余片面结构组织如下:正在第二片面,咱们正在 DNN 和马尔科夫链之间创筑了相干;第三片面愚弄强数据治理不等式推导出深度神经汇集中的中央特点外征和输出之间的互消息转折;第四片面给出了重要钻探结果:DNN 中基于深度 L 的指数极泛化差错上界;第五片面为重要定理的外明;第 6 片面是总结。


图文信息

友情链接:锘縮ssss鑻忚嫃鑻忚嫃鑻忔墍鎵鎵鎵鎵

Copyright @ 2009-2018 88pt88
Baidu