前馈神经网络介绍03解读

上传人:微*** 文档编号:66609749 上传时间:2022-03-28 格式:DOCX 页数:15 大小:76.74KB
收藏 版权申诉 举报 下载
前馈神经网络介绍03解读_第1页
第1页 / 共15页
前馈神经网络介绍03解读_第2页
第2页 / 共15页
前馈神经网络介绍03解读_第3页
第3页 / 共15页
资源描述:

《前馈神经网络介绍03解读》由会员分享,可在线阅读,更多相关《前馈神经网络介绍03解读(15页珍藏版)》请在装配图网上搜索。

1、4.13函数逼近通用逼近定理令邛(.)是一个非常数、有界、单调增的连续函数,令Im0表 示mo维单位超立方体0,1广,片上连续函数空间用C(Im0)来表 示,则给定任何函数fWC(ImJ, C0,存在一个整数mi和实常 数集四,b,8q ,在这里i =1,m; j =1,mo ,这样我们就可以定义:mim、F(x1,,Xm0 ) = Z 叫9 z / Xj +b(4.86)Fkj4)作为f(.)函数的一个近似实现;也就是:F(X,,Xmo )f (x1,,Kg J 0的球体Br =x:|x|区r, 误差界定理:对于每个具有有限第一绝对动量Cf的的连续函数f(x),并且每个mi 21,则存在一个

2、由公式(4.86)定义形式的S形函数的线性组合得到的函数 F(x):2CfB f x -F x dx -Br色其中 Cf =(20 )2。当观察到函数 ”乂)由为心表示的的输入向量 x值的集合 严格属于球体Br内部的时候,这个结果对经验风险提供如下 的界: I1 N2 C,一、R = (f(X)-F(x)一(4.89)Ntmi使用具有mo个输入节点和mi个隐含神经元的多层感知器而导致的风险R的界:(4.90)RO,/Cl+ofm0m1logN imi J IN 9 J关于风险R的界的两项表达了两种对隐含层大小互相矛盾的 要求之间的折衷:令电表示估计误差的均方值。然后忽略公式(4.90)中表达式

3、的第二项的指数因素logN ,我们可以推断由一个好的泛 化所需的训练集大小N大约是momi/%。其中momi是等于网络中 自由参数W的总数的。从总体上认为为了得到好的泛化,训 练例子的数目N应该大于网络中自由参数总数量和估计误差 均方值之比。维数灾当隐含层的大小由下式优化设置 (也就是,风险R关于N 最小化)的时1/2mi : Cfmo log N 因此,风险 R由O(Cf Jmo(iog N /N )界定。在风险R的一阶条件中,以训练集大小N表达的收敛速度取决于(1/ N 1/2 (乘以一个对数因子的倍数)。对传统的光滑函数(举例来说,多项式和三角函数),令s表示光滑度的大小尺度,定义为函数

4、的连续导数的数目。总风 险R的最小最大的收敛速度取决于(1/ N/伫的这个依赖于输入空间维数m0的收敛速率,就是维数灾,这几乎完全制约了 这些函数的实际应用。应用于函数逼近的多层感知器的使用看来提供了超越于传 统函数的优势;但是这个优势受限于第一绝对动量Cf保持有限的条件;这是一个光滑度约束。Richard Bellman在他对自适应控制过程的研究(Bellman1961)中介绍了维数灾。为了从几何上解释这个概念,令x表示一个小维的输入向量,(x,di),i=1,2,N表示训练样本。采 样密度与N1/m0成正比。令函数f(x)代表一个存在于 m0维输入 空间的平面,它通过点(xi,dj。现在如

5、果函数f(x)是任意复 杂并且(对绝大部分来说)是完全未知的,我们需要密集的 样本(数据)来进行很好的学习。不幸的是,密集样本在“高 很”中是很难找到的,因此产生了维数灾。在个别情况下, 维数增加的结果导致复杂度呈指数增长,从而导致高维空间中均匀随机分布点的空间填充性质退化。维数灾的基本原因如下(Friedman, 1995):定义在高维空间的函数看来远远比定义在低维空间上的函数复杂得多,并且这些复杂的东西是更难以区分的。克服维数灾难的唯一可行办法是在训练数据上混合关于这个函数的一些先验知识,这些先验知识已知是正确的。在实际中,同样存在这这样的论据:即如果希望在高维空间中得到好的泛化性能,对于

6、增大的维数我们必须假设未知潜在函数的更高的光滑度要求( Niyogi 和 Girosi , 1996)。这个观点将在第五章中继续深入讨论。可行性考虑从理论的观点来看,总体逼近理论是重要的,因为它为具有单个隐含层的前馈网络作为一类逼近器的正确性提供了必要的数学工具。如果没有这样一个理论,我们可能在寻找那些并不存在的方法。然而,这个理论并不是构建性的,亦即是,它实际上并不能具体说明如何由一定的逼近性质决定一个多层感知器。总体逼近理论假设被逼近的连续函数是给定的并且一个无限制的隐含层对逼近是可用的。 这两个假设在绝大多数多层感知器的实际应用中都是大胆的。使用单个隐含层的多层感知器的问题是那里的神经元

7、趋于整体地相互作用。在复杂情形下这种相互作用使得在一点提高它的逼近同时不恶化它在其它点上的逼近变得困难。 在另一方面,在具有两个隐含层的情况下逼近(曲线拟合)过程变得更容易处理。具体地,我们可以进行如下处理( Funahashi, 1989; Chester, 1990 ) :1、从第一个隐含层中抽取的局部特征。 特别地, 在第一个隐含层中的一些神经元经常将输入空间分割成区域, 这层中另外的神经元学习表现这些区域特点的特征。2、从第二个隐含层中抽取全局特征。 特别地, 在第二隐含层中的一个神经元组合在输入空间个别区域起作用的第一个隐含层的神经元的输出, 从而学习该区域的全局特征并且在别处的输出

8、为零。这个两阶段的逼近过程在实质上与曲线拟合的样条插值技术是相似的,在这个意义下神经元的影响是隔离的,并且输入空间不同区域的逼近可以单独地调整。一个样条就是一个分段多项式逼近的例子。Sontag (1992)为在逆问题中两个隐含层地使用提供了 更深入地理由。特别地,考虑下述逆问题:给定一个连续向量值地函数 f : Rm T RM , 一个紧子集空工Rm 包含于f的像(即,值域)之中,并且 君A0,寻找一个向 量值函数中:RM T Rm ,使得满足下述条件:|之f(u) u |名对于u w甲这个问题由现在逆动力学(动态)中,此时一个系统的观 察状态x(n)是当前动作u(n)和系统先前状态x(n1

9、)的函数,表 示如下:x n = f x n -1 ,u n假设f可逆,那么对于任何 x(n-1)我们可以把u(n)当作x(n)的 函数来求解。函数f代表运动方向,因而函数 中代表逆运动。 在实际条件中,我们的动机是寻找一个可以通过多层感知器 计算的函数中。从总的说来,非连续函数平对于解决逆运动问 题是必需的。这是一个有趣的问题,即使具有非连续激活函 数的神经模型的使用是许可的,但一个隐含层并不能充分保 证所有逆问题的解决,因而具有两个隐含层的多层感知器对 于每一个可能的f、里和名是充分的(Sontag, 1992)。4.14 交叉确认反向传播学习的核心是把输入输出映射( 由标定的一组训练例子

10、表示)编码为一个多层感知器的突触权重和阈值。我们的期望是网络被很好地训练以至它对过去进行充分的学习就能总结地得出未来。从这个观点来看,学习过程等于为这个数据集合给出网络参数化的一个选择。具体地,我们可以把网络选择问题看作是在一个候选模型结构集合中选择符合某个标准的“最好”一个的问题。在这种意义下,统计学中一个名为交叉确认的标准工具提供了一个有吸引力的指导规则 9 (Stone, 1974, 1978)首先已有的可用数据集被随机分割成一个训练集和一个测试集。这个训练集被进一步细分为两个不相交子集: 估计子集,用来选择模型。 确认子集,用来测试或者确认模型。这里的动机是用一个与参数估计数据集相异的

11、数据集确认的模型。用这个办法我们可以用训练集来估计不同候选模型的性能,进而选择“最好”的一个。然而,存在一个明显的可能性是这样选出来的具有最好表现参数值的模型可能会导致对确认子集的过度拟合。为了防止这个可能性的出现,在与确认子集不同的测试集上估量被选模型的泛化性能。当我们不得不以设计一个具有好的泛化性能的大型神经网络作为目标的时候,交叉确认的使用是特别吸引人的。例 如,我们可以使用交叉确认确定具有最优隐含层数目的多层 感知器,最好在何时停止它的训练,正如在下两个子节中所 述的那样。模型选择根据交叉确认选择模型的思想遵循一个与第二章所述结 构风险最小化思想相似的哲学。现在考虑如下表示的布尔函 数

12、类的嵌入结构:k =1,2,,n1 - 2-2 I II nk - ;Fk) 7F x,w ;w Wk)(4.(91)也就是说,第k个函数类二包含一个具有相似体系结构和从 一个多维权重空间Wk抽生的权重向量w的多层感知器簇。以 函数或者假设Fk =F(x,w)为特征的类的一个成员 wWk把输入 向量x映射到0,1,这里x是以某未知概率P从输入空间税中 抽取由来的。在所述结构中的每个多层感知器都是由反向传 播算法训练的,该算法负责多层感知器参数的训练。模型选 择问题本质是选择具有最好的 W值和自由参数(亦即是,突 触权重和阈值)数目的多层感知器。更精确地,假设对输入 向量x的期望响应标量是d=0

13、,我们定义泛化误差如下:为 F =P F x 二d给由一个标定训练集对于x -N= x,di 我们的目标是选择精确的假设F(x,wb当从测试集中给定输入时它所得泛化误差 %(F )为最小。下面我们假设由公式(4.91)表达的结构具有这样的性 质,即对于任意大小的 N我们都可以找到一个具有数量足够 多的自由参量Wmax(N)的多层感知,这样训练数据集”就可以充分地被拟合。 这只不过重申 了 4.13节的通用逼近定理,我们提到WU(N )作为拟合数字,Wmax ( N的重要性即是一个合理的模型选择程序应该选择一个 要求满足WEWmax(N)的假设F(X,W);否则网络复杂度将会增 加。令一个存在于

14、。和1范围之间的参数r决定估计子集和确 认子集之间的训练数据集 的划分,”由N个例子组成,(1-r)N 个例子分配给估计子集,剩下的 rN个例子分配给确认子集。 估计集用1表示,它通常训练多层感知器的一个嵌套序列, 以复杂度递增的假设 与三川;构成。由于“由(1 . r)N个样本组 成,我们认为W的值小于或者等于相应的拟合数字 WnaxW-r)N )。交叉确认方法的使用导致了如下的选择:J =min 归(X k -2,.,v(4.(92)其中v相应于W Wmax(1-r )N ), eKk )是当由rN个例子组成的确 认子集*上测试时由假设 二产生的分类误差。关键的问题是如何具体确定决定训练集

15、n在估计子集n和确认子集之间的划分的参数ro最优的几个定性特点:当定义输入向量x的期望响应d的目标函数的复杂度 相对于同样大小的N是小的时候,交叉确认的性能对r 的选择相对不敏感。当目标函数项对于样本大小 N变得更复杂的时候,最 优r的选择在交叉确认性能上具有更重要的影响,并且它自身的值减小。 r的一个单一固定的值在目标函数复杂度的一个相当 大的范围内近乎最佳。r等于0.2的一个固定值是一个切合实际的选择。复杂度增长的多层感知器的嵌入顺序是可以建立起来的;例如,通过如下建立具有 v = p+q个完全连接的多层感知 器: P具有递增hlh2.hp的单个隐含层的多层感知器;q具有两个隐含层的多层感

16、知器;第一个隐含层的大小为hp,第二个隐含层是递增的 hih2.hq。尽管该过程在文中针对二值分类讨论的,但是它可很好地应用到多层感知器的其他应用中。早期停止训练的方法我们可以通过交叉确认来标记过适应的发生,此时训练数据被分成了估计子集和确认子集。周期性的估计-确认的过程是如下进行的:经过一个估计(训练)的之后,多层感知器的突触权 重和偏置都已经固定下来,并且网络是是在它的前向 模式下运作的。对每个确认子集的例子度量确认误差。当确认阶段完成的时候,另一个时期的估计(训练) 重新开始,这个过程被重复。这个过程称作训练的早期停止方法。均方误差图4.20基于交叉确认的早期停止规则示意图Amari等人

17、(1996)提由的过适应现象的统计学理论为 早期停止训练方法的使用提供了警告。两种行为模式验证了对于训练集的大小的依赖:非渐近模式,此时NW,其中N是训练集的大小,W是 网络中自由参数的个数。此时早期停止训练的方法确实通过无遗漏的训练提高了网络的泛化性能(亦即是,当整个的训练样本集合被用来训练并且训练过程不被停止的时候)。这个结果暗示着当N 1 ;这里假设N对K是可分的。这个模型在除 了一个子集之外的其他子集上进行训练,确认误差通过剩下子集上的测试来衡量。这个程序总共被重复K次试验,每次使用一个不同的子集进行确认,如图4.21所示K=4的情形模型性能的评估是通过求实验中所有的试验的确认平方误差

18、的平均来进行的。 多重交叉确认存在一个缺点:当1KEN时,既然模型必须训练K次,它可能需要一个超大的运算量。 口 口 图4.21交叉确认的阻止方法示意图 对一给定的试验,带阴影的数 据集用来确认模型,而剩下的 数据用来训练模型特别地可以使用被称为“留一交替”方法的多重交叉确认的极端形式。在这种方法中,N1个样本用来训练模型,并且这个模型通过剩下的一个样本的测试来确认。这个实验总共被重复N次,每次剩由一个不同的样本来进行确认。然 后通过确认的平方误差在 N次试验上求平均。读书的好处1、行万里路,读万卷书。2、书山有路勤为径,学海无涯苦作舟。3、读书破万卷,下笔如有神。4、我所学到的任何有价值的知

19、识都是由自学中得来的。一一达尔文5、少壮不努力,老大徒悲伤。6、黑发不知勤学早,白首方悔读书迟。一一颜真卿7、宝剑锋从磨砺出,梅花香自苦寒来。8、读书要三到:心到、眼到、口到9、玉不琢、不成器,人不学、不知义。10、一日无书,百事荒废。一一陈寿11、书是人类进步的阶梯。12、一日不读口生,一日不写手生。13、我扑在书上,就像饥饿的人扑在面包上。 高尔基14、书到用时方恨少、事非经过不知难。一一陆游15、读一本好书,就如同和一个高尚的人在交谈一一歌德16、读一切好书,就是和许多高尚的人谈话。一一笛卡儿17、学习永远不晚。一一高尔基18、少而好学,如日出之阳;壮而好学,如日中之光;志而好学,如炳烛之光。一一刘向19、学而不思则惘,思而不学则殆。一一孔子20、读书给人以快乐、给人以光彩、给人以才干。一一培根

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!