神经网络学习算法的过拟合问题及解决方法

上传人：仙*** 文档编号：134818559 上传时间：2022-08-14 格式：DOC 页数：12 大小：276.50KB

收藏版权申诉举报下载

第1页 / 共12页

第2页 / 共12页

第3页 / 共12页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《神经网络学习算法的过拟合问题及解决方法》由会员分享，可在线阅读，更多相关《神经网络学习算法的过拟合问题及解决方法（12页珍藏版）》请在装配图网上搜索。

1、第22卷第4期2002年12月Vol. 22 No. 4Dec. 2002振动、测试与诊断Jour nal of Vibr ation, M easurement & Diag nosis神经网络学习算法的过拟合问题及解决方法李俭川秦国军温熙森胡茑庆（国防科技大学机电工程与自动化学院长沙，410073）摘要针对反向传播学习算法及其改进算法中岀现的过拟合问题，探讨了三种解决方法：调整法、提前停止法和隐层节点自生成法，并用实例对三种方法进行了验证和比较。其中，调整法和提前停止法针对一个较大的网络可以解决过拟合问题,而隐层节点自生成法的提岀既能避免过拟合问题,又能获得最少神经元网络结构。这

2、三种方法有效地解决了在神经网络学习过程中的过拟合问题，提高了网络的适应性。它们不仅适合于函数逼近，而且可以推广到其他网络结构等应用领域。关键词神经网络计算机 BP算法过拟合均方误差自生成故障诊断中图分类号 TH 165. 3神经网络已经在模式分类、机器视觉、机器听觉、智能计算、自动控制、故障诊断、信息处理、地震勘探、通信、雷达和声纳等领域有着十分广泛的应用前景，并随着计算机技术和信号处理技术的发展而发展。应用神经网络必须解决两个问题：模型和算法。现有的神经网络模型已1达上百种，应用最多的是 Hopfield神经网络、多层感知器、自组织神经网络、概率神经网络以及它们的改进型。自Rumell

3、hart D E, H in to n和Williams提出误差反向传播算法（即BP算法）,解决了神经网络在引入隐层节点后的学习（或训练）问题后，已经发展了许多的改进学习算法，如快速下降法、共轭梯度法、一维搜索法及Levenberg-Mar quardt法等，其收敛速度很快,能满足实时性要求，但也存在着一些问题。1学习算法及其过拟合问题BP算法及其改进算法是目前应用最广泛的学习算法，尽管不能证明这类算法能象单层感知器一样收敛，但是对许多问题的解决是成功的2。实际上，BP算法是把一组样本的输入输出问题,变为一个非线性优化问题，它使用了优化技术中最普通的一种梯度下降法，用迭代运算求解权值并相应

4、于学习记忆问题，加入隐层节点可使优化问题的可调参数增加，这样可得到更精确的解。要应用学习算法对网络进行训练，首先需要确定网络的结构，即输入、输出层神经元数目和隐层数及其神经元数目。如何适宜地选取隐含层神经元的数目还没有确定的规律可以指导，但是，隐含层神经元数目是否合适对整个网络是否能够正常工作具有重要的甚至是决定性的意义。隐含层神经元数国家自然科学基金资助项目（编号:59775025）。收稿日期:2001-07-09；修改稿收到日期:2001-12-03。第4期李俭川等：神经网络学习算法的过拟合问题及解决方法#图1学习样本图2过拟合现象一般用网络均方误差做为衡量网络拟合能力的误差准则函数N

5、N1 2 1E = Ee= N 初（ei） = n Z?t- o）其中：N为对应层神经元数目;ti为输出样本值;o为神经元输出。第一种解决过拟合的方法就是调整衡量网络拟合能力的误差准则函数络权值和偏置值的均方值。1,即(2),添加一项含有网目如果太少，网络就无法进行训练2,3。如果刚好能够进行训练，则网络的鲁棒性差，抗噪声能力不强，不能辨识以前没有遇到的模式。如果网络隐含层的神经元数目太多，就会需要大量的训练样本，而且能力过强，具有了所有的模式而无法接受新的模式，伴随而来的是为训练而耗费的大量时间和内存，这种现象就是所谓的过拟合。例如，利用神经网络实现函数逼近时，如果网络过大，通常会发生

6、过拟合现象。图 1中，+ ”表示含有噪声的正弦电压信号学习样本；虚线表示无噪声的理想情况（以下各图表示方法相同）。图2所示为一个3层神经网络（输入层1个神经元，隐层20个神经元，输出层1个神经元）利用Levenber g-M arquardt法对图1所示样本进行训练的结果，实线为训练后的网络的响应（以下各图表示方法相同）。由图可见，网络已经出现过拟合现象，其适应性不好。2解决过拟合的方法很容易想到的是选择合适的隐层神经元数目来避免过拟合现象，一般来说，隐含层神经元的数目可以根据下式来确定 1调整法 E = Ee+ (1 - )Ew其中：为比例因子。其中:wj为网络权值或偏置值；n为权值

7、和偏置值的总数。用式（3）将使网络具有更小的权值或偏置值，从而使得网络的响应更平滑，大大降低过拟合的可能。运用调整法的学习算法的实现过程与BP算法是类似的，这里不再赘述。该方法存1/ 2nH = （ni + nO） + I（1）其中：nh, nI和n。分别为隐含层、输入层和输出层的神经元数目;l 一般为110之间的一个整数（特别情况可以大于10）。显然,这种方法是不能保证避免过拟合问题的。针对过拟合问题，笔者探讨了 3种解决方法。第4期李俭川等：神经网络学习算法的过拟合问题及解决方法263第4期李俭川等：神经网络学习算法的过拟合问题及解决方法267(3)n2Ew =在的问题是难于确定调

8、整参数的最优值,当太大时，网络可能会出现过拟合；若太小,则网络将无法进行训练。最好的策略是能自动地设置调整参数,一种较好的方法是基于 Bayes决策规则的调整法4,该方法假定网络的权值和偏置值是具有特定分布的随机变量，可以用统计方法来估计调整参数闫。利用调整法结合 Levenberg-Marquardt法进行前述网络的训练,得到的网络输出结果如图3所示。由图可见，网络的响应很接近原正弦信号。因此，可以用该方法训练更大的网络亦不会产生过拟合，消除了设计网络时对结构的猜测性。利用调整法时，往往将网络设置为足够大，因为网络太小时无法进行训练。具体可根据式（1），令1= 10或更大。2. 2

9、提前停止法将训练样本分为3个子集，第1个子集做为训练子集，用来计算梯度和网络的权值及偏置值。第2个子集称为确认子集，在训练过程中它用来检验网络误差（称之为确认误差）。在训练的初始阶段，确认误差将减小，但当网络开始出现过拟合时，确认误差将会上升，当确认误差在一定次数的迭代过程中均上升时，网络停止训练，此时可以得到在确认误差最小时网络的权值和偏置值。第3个子集是测试子集，用于比较不同子集划分时网络的适应性。如果测试子集产生的误差达到最小时的迭代次数与确认子集相差很大，则表明子集的划分是不合适的，需要重新进行划分。这种方法称为提前停止法，所谓提前，是指在到达误差目标之前可能会结束训练过程。提前

10、停止法可以应用于任何算法，只需要在训练过程中用确认子集检验网络误差。用该方法对前述网络进行训练，得到如图4所示的结果。从网络的响应可以看出，网络没有出现过拟合现象，但其输出不如调整法平滑，这是提前停止法的缺点。-1-0-500.5t/s图3调整法训练结果图4提前停止法训练结果2. 3隐层节点自生成法神经网络中研究最多的是含有一个隐含层的网络，因为三层的前馈神经网络能逼近任意的连续函数1。神经网络的输入层、输出层和神经元个数可以根据研究对象的输入、输出信息来确定，如何适宜地选取隐含层神经元的数目是难点，前述的2种方法能消除过拟合现象，但却不能选择最合适的隐层神经元数目，无法获得最佳的网络结构。隐

11、层节点自生成法就旨在获得一个鲁棒性好，抗噪声能力强，又不会产生过拟合的网络。现在，该方法在一些特定网络（如径向基网络）上得到了应用6,7。这里讨论的隐层节点自生成法使这种自生成策略得到了推广。对于BP算法及其改进算法而言，在网络的训练过程中，是以是否达到误差目标作为是否停止训练的条件。对于太小的网络，是难于达到误差目标的；而网络太大，又会出现过拟合现象。因此，初步设计思想为：先设计一个仅含有一个隐层节点的网络，在训练过程中，根据误差目标及其下降的速率来确定是否增加一个隐层节点，直到网络的训练达到误差目标。但是，仅仅按初步的设计思想仍然会产生过拟合现象，例如当误差目标太小时，网络就可能产生过

12、拟合。因此，这种方法的实现可以结合提前停止法的思想，即也需要进行训练样本的划分，但无需测试子集。可以使用间隔划分法将训练样本划分为训练子集和验证子集，即以奇序列号样本做为训练子集，偶序列号样本做为验证子集。训练子集用来计算梯度和网络的权值和偏置值；验证子集用来在训练过程中检验网络误差(称之为验证误差)。在每增加一个隐层节点进行网络训练时，均可以得到验证误差的最小值 (验证误差由减小变为增加)，当该最小值在增加节点后不减反增时，停止网络训练，返回网络结构及其权值和偏置值。因此，利用隐层节点自生成法设计网络的思想可更正为：先设计一个仅含有一个隐层节点的网络；在训练过程中，根据误差下降的速率和验

13、证误差的变化来确定是否增加一个隐层节点，即当误差下降的速率低于阈值，并且验证误差已经到达最小值时，增加一个隐层节点；当验证误差的最小值在增加节点后变大，或者网络训练达到误差目标时，停止网络训练。以含有一个隐层的网络结构为例，隐层节点自生成法的具体实现算法可以结合BP算法或者其改进算法来进行，其一般步骤如下：(1) 设定误差目标和误差下降率阈值；1(2) 初始化网络结构，隐层节点数n= 1,初始化网络权值和偏置值 (为小的随机数)，计算误差准则函数E；(3) 利用训练子集进行网络学习，调整网络权值和偏置值(4) 计算误差准则函数 E和误差下降率 E/E，同时利用验证子集进行验证误差Ev的计

14、算，如果e ，则到第(8)步，否则到第(5)步；(5) 如果 E/E ，则到第步，否则到第(3)步；(6) 如果验证误差 Ev未达到最小值，则到第(3)步；如果验证误差Ev达到最小值且比增加节点前更大，则到第(8)步，否则到第(7)步；(7) 生成新的隐节点 n+ 1,并为其设置权值和偏置值，转到第(3)步；(8) 学习结束，返回学习结果。图5为隐层节点自生成法(结合Levenber g-M arquardt法)设计的网络及其训练结果，该网络的隐层节点为 5。其训练结果比较图5隐层节点自生成法训练结果接近利用调整法对网络进行训练的结果。,这是该方法的不足之处，但它是一种获得最佳网

15、络结构的方法。在第(2)步中对隐层节点数n的初始值可以根据值得注意的是，隐层节点自生成法的迭代次数一般较前两种方法更多具体情况设置为稍大的数，这样可以减少迭代次数，从而加快学习速度。实际上，隐层节点自生成法也可以结合调整法进行，此时误差准则函数与调整法一致，根据初步设计思想进行网络调整和训练即可。空3应用实例在对某汽轮机减速箱轴承运行状态进行监控时，获取了 47组状态样本。在实验室用放大镜检查时，可以确定一部分是正常的，一部分有轻微故障，还有一部分有严重故障。所获得的运行数据经过特征提取，得到归一化的10维特征矢量，包含信号时域均方差、总频段信号谱能量和18倍基频的信号分成的 8

16、段谱能量。构造一个3层BP神经网络，输入层节点为10，输出层节点为3。以获得的10维特征矢量作为网络输入，当3个输出节点为1时，各自代表轴承的状态为：正常、轻微异常和严重异常，否则输出为0。结合L-M法，笔者用4种方法训练网络（误差目标=1e- 3,初始权值和偏置值均设置为绝对值小的随机数）。用12组新的检验样本测试获得的网络结构，比较结果如表1所示。表1 BP网络训练方法实例比较结果训练方法隐层节点数迭代次数误差值分类应用正确样本数L-M法886789. 8E-47调整法159059. 9E-411提前停止法88500. 00711隐层节点自生成法6（初始为3）24440. 00211

17、1由表1可见，L- M法已经发生过拟合现象，分类能力下降。采用调整法、提前停止法和隐层节点自生成法后，网络的训练时间缩短，获得的网络分类能力提高。另外，隐层节点自生成法获得的网络结构是最小的。上述3种方法有效地解决了在神经网络学习过程中的过拟合问题，提高了网络的适应性。它们不仅适合于函数逼近应用之中，而且可以推广到其他网络结构和相应的应用领域。1温熙森，胡茑庆，邱静.模式识别与状态监控.长沙：国防科技大学出版社，1997. 1341502吴今培，肖健华.智能故障诊断与专家系统.北京：科学出版社，1997. 1721763李俭川.神经网络在信号除噪技术中的应用.电子技术应用，19

18、99,25(12):694 M ackay D J C. Bayesian interpolate n. Neural Computatio n，1992, 4(3): 415 4475 Foresee F D, Hag an M T. Gauss- Newton approximat ion t o bayesian regular ization. I n: Proceedings of the 1997 Inter natio nal Joint Conference on N eural Networks, Houston, T exas,1997.193019356 Lu Y W,

19、Sundararajan N, Saratchandran P. A sequential learning schemefor function approximat ion using minimal radial basis function neural networks. Neural Computation, 1997, 9(3):461 4787泰国军，胡茑庆，温熙森.一种自生成基函数模糊神经元故障诊断模型及其应用.国防科技大学学报，1998,20(1) : 2731第一作者简介:李俭川男，1974年11月生，博士生。主要从事自动控制、信号处理、智能监控与故障诊断领域的研

20、究工作。曾发表“基于神经网络的热电偶特性数学模型”（传感器技术2000 年第 21 卷第 1 期）等论文。E-mail: jianchuan- li2 China AcademicElectronic PublishingAll rights rtscrvvd. 320Journal of Vibr ation, Measurtm ent & DiagnosisVol. 22of the bispectr a of different wear stages, including initial wear stage, normal wear stage and rapid wear st

21、age are analyzed- Experimental results show that the method is effective and more suitable for milling cutter condition monitoring than the others.Keywords helical cuttercondition m onitor ingvibration acceleratio n bispectrumOver-Fitting in Neural Network Learning Algorithms andIts Solving Strategi

22、esL i J ianchuanQin Guojun Wen X isen H u N iaoqing(Research Institute of Mechatronics Engineering, Institute of Mechatronics Engineering and Automatization,National Univ ersity of DefenseT echnology Changsha, 410073, China)Abstract T o counter the over-fitting problem in BP algorithm and its improv

23、ements , we proposed three solvi ng str ategies, called regularizatio n, early stopp ing and hidde n no de selfgenerating. The first two methods could get rid of the over-fitting for large netw orks. T he last one could not only avoid the over-fitting , but also get the m ost appro priate netw ork.

24、The paper also gave the validation and comparison of the three methods by an actual example.Keywords neural networkcomputer BP algorithmover-fittingmean sum of squareserrorself- ge nerat ingfault diag no sisResearch on Motion Trajectory Control of 3 DOF Ultrasonic Motorwith Single StatorZhan Fen gj

25、ia ngL i Zhir ongHuang Wei qing Zhao Chun she ng(U ltr asonic Motor Engineering Research Center of Jiangsu Province Nanjing , 210016, China)Abstract A control method based on step by step comparison for solving the coupling of motion between the dimensions is presented in the paper for the 3 DOF ult

26、rasonic motor with a single stator. Test results indicate that the control method is effective and the motor can work well.Keywordsultrasonic m otorssing le statormotion tr ajectory controlstep by step320Journal of Vibr ation, Measurtm ent & DiagnosisVol. 22comparisonJournal Electronic Publishing IIcu&c. All righ

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

神经网络学习算法的过拟合问题及解决方法

最新文档

相关资源

相关搜索