深度学习的相关算法研究课件

上传人:29 文档编号:240566397 上传时间:2024-04-16 格式:PPT 页数:72 大小:8.26MB
收藏 版权申诉 举报 下载
深度学习的相关算法研究课件_第1页
第1页 / 共72页
深度学习的相关算法研究课件_第2页
第2页 / 共72页
深度学习的相关算法研究课件_第3页
第3页 / 共72页
资源描述:

《深度学习的相关算法研究课件》由会员分享,可在线阅读,更多相关《深度学习的相关算法研究课件(72页珍藏版)》请在装配图网上搜索。

1、深度学习方法的一些研究深度学习方法的一些研究西安交通大学西安交通大学 数学与统计学院数学与统计学院张讲社张讲社 西安交通大学西安交通大学统计系统计系主要内容主要内容研究背景与意义研究背景与意义研究背景与意义研究背景与意义基于率失真理论的深度信念网基于率失真理论的深度信念网基于率失真理论的深度信念网基于率失真理论的深度信念网32利用利用利用利用稀疏响应增强反向传播算法的性能稀疏响应增强反向传播算法的性能稀疏响应增强反向传播算法的性能稀疏响应增强反向传播算法的性能用等能量跳转的并行回火算法训练用等能量跳转的并行回火算法训练用等能量跳转的并行回火算法训练用等能量跳转的并行回火算法训练RBMRBMRB

2、MRBM415总结总结总结总结与展望与展望与展望与展望1.1 1.1 深度学习的背景及意义深度学习的背景及意义最多含单个将原始信号转换到特定问题空间最多含单个将原始信号转换到特定问题空间特征的简单特征的简单结构,结构,只学习只学习只学习只学习数据的单层表示数据的单层表示数据的单层表示数据的单层表示。浅层学习的局限性浅层学习的局限性在有限的样本和计算单元的情况下在有限的样本和计算单元的情况下对复杂函数的表示能力对复杂函数的表示能力有限有限缺乏发现数据中复杂结构的缺乏发现数据中复杂结构的能力能力针对复杂分类问题其针对复杂分类问题其泛化能力受到泛化能力受到一定一定限制限制GoogleGoogle的语

3、音识别实验证明,面对的语音识别实验证明,面对大数据大数据,浅层结构算法,浅层结构算法经常处于严经常处于严重的欠拟合状态重的欠拟合状态。传统的机器学习方法传统的机器学习方法传统的机器学习方法传统的机器学习方法浅层结构算法浅层结构算法浅层结构算法浅层结构算法n机器学习是使计算机具有人工智能的根本途径机器学习是使计算机具有人工智能的根本途径人类大脑的信息处理系统人类大脑的信息处理系统是一多层是一多层并行系统,它利用逐层的方式对数并行系统,它利用逐层的方式对数据进行特征提取,从低层到高层的据进行特征提取,从低层到高层的特征表示越来越抽象。抽象层面越特征表示越来越抽象。抽象层面越高,越能表现语义或者意图

4、。高,越能表现语义或者意图。人类的认知过程是以深度的方式呈现的,层次化地人类的认知过程是以深度的方式呈现的,层次化地组织思想和概念:首先学习简单的概念,然后使用组织思想和概念:首先学习简单的概念,然后使用学习到的简单概念表示抽象层面更高的概念。学习到的简单概念表示抽象层面更高的概念。生物依据生物依据生物依据生物依据面对复杂的感知数据,人类总能做出合理的判断面对复杂的感知数据,人类总能做出合理的判断n人类大脑的结构和信息处理机制人类大脑的结构和信息处理机制n人类的认知过程人类的认知过程面对浅层结构算法的局限性,并受大脑分层次处理信息和人类层次化面对浅层结构算法的局限性,并受大脑分层次处理信息和人

5、类层次化面对浅层结构算法的局限性,并受大脑分层次处理信息和人类层次化面对浅层结构算法的局限性,并受大脑分层次处理信息和人类层次化完成认知过程的启发,学者们一直致力于深度架构的研究完成认知过程的启发,学者们一直致力于深度架构的研究完成认知过程的启发,学者们一直致力于深度架构的研究完成认知过程的启发,学者们一直致力于深度架构的研究1.1 1.1 深度学习的背景及意义深度学习的背景及意义提取抽象水平提取抽象水平较低的特征较低的特征提取抽象水平提取抽象水平较高的特征较高的特征1.1 1.1 深度学习的背景及意义深度学习的背景及意义深度学习的概念起源于人工神经网络的研究深度学习的概念起源于人工神经网络的

6、研究基于数据处理基于数据处理群方法训练群方法训练的网络模型的网络模型1965年年1979年年卷积神经网卷积神经网络模型络模型多层前向多层前向网网最早的类多层感知最早的类多层感知最早的类多层感知最早的类多层感知器深度学习系统器深度学习系统器深度学习系统器深度学习系统1986年年多层前向多层前向多层前向多层前向网网网网深度信念深度信念深度信念深度信念网网网网2006年年突破性的进展突破性的进展突破性的进展突破性的进展1.2 1.2 深度学习的发展深度学习的发展u复兴复兴完全依赖带标签数据完全依赖带标签数据完全依赖带标签数据完全依赖带标签数据实际问题中大部分数据是实际问题中大部分数据是实际问题中大部

7、分数据是实际问题中大部分数据是无标签无标签无标签无标签的的的的学习效率不学习效率不学习效率不学习效率不高,特别对于大数据高,特别对于大数据高,特别对于大数据高,特别对于大数据当网络中层数当网络中层数当网络中层数当网络中层数较多较多较多较多时,学习时间时,学习时间时,学习时间时,学习时间过长过长过长过长对对对对初值初值初值初值敏感,经常敏感,经常敏感,经常敏感,经常陷入局部陷入局部陷入局部陷入局部极值极值极值极值随着层数的随着层数的随着层数的随着层数的增多增多增多增多,坏的,坏的,坏的,坏的局部极小点局部极小点局部极小点局部极小点出现的概率增大出现的概率增大出现的概率增大出现的概率增大BPBP方

8、法的局限性方法的局限性*考虑考虑考虑考虑预训练模型,通过预训练模型选择权重的预训练模型,通过预训练模型选择权重的预训练模型,通过预训练模型选择权重的预训练模型,通过预训练模型选择权重的初始值初始值初始值初始值用用用用生成模型生成模型生成模型生成模型优化多层神经网络优化多层神经网络优化多层神经网络优化多层神经网络通过通过通过通过最大化最大化最大化最大化模型模型模型模型似然似然似然似然来学习模型参数来学习模型参数来学习模型参数来学习模型参数学习学习学习学习 p(p(p(p(数据数据数据数据)而而而而不是不是不是不是p(p(p(p(标签标签标签标签|数据数据数据数据)深度结构深度结构的新发展的新发展

9、8l深度学习成熟条件深度学习成熟条件1 1数据集的增大数据集的增大图 6 数据集与年份9l深度学习成熟条件深度学习成熟条件2 2神经元之间的连接数增大(本质原因神经元之间的连接数增大(本质原因是计算机硬件技术的飞速发展)是计算机硬件技术的飞速发展)图 7 神经元连接与年份10l深度学习成熟条件深度学习成熟条件3 3神经元个数的增加(本质原因是神经元个数的增加(本质原因是计算机硬件技术的飞速发展)计算机硬件技术的飞速发展)图 8 神经元个数与年份11l好算法的出现:好算法的出现:2006 2006年,年,Geoffrey HintonGeoffrey Hinton在在ScienceScience

10、上发表了一篇名为上发表了一篇名为Reducing with Reducing with Dimensionality of Data with Neural NetworksDimensionality of Data with Neural Networks的文章,从此,神经网络的文章,从此,神经网络(主要是深度学习)便有焕发了新的青春。(主要是深度学习)便有焕发了新的青春。图 9 Geoffrey Hinton与他的学生在Science上发表文章1.2 1.2 深度学习的发展深度学习的发展u在在学术界的研究现状及应用学术界的研究现状及应用模型架模型架模型架模型架构及训构及训构及训构及训练方

11、法练方法练方法练方法应应应应 用用用用子模型的选子模型的选取与建立取与建立深度结构深度结构的的整体整体训练训练语音和音频语音和音频信号处理信号处理图像识别图像识别和检索和检索自然语言处理自然语言处理和信息检索和信息检索20102010年,美国国防部年,美国国防部年,美国国防部年,美国国防部DARPADARPA计划计划计划计划首次资助斯坦福大学、纽约大学首次资助斯坦福大学、纽约大学首次资助斯坦福大学、纽约大学首次资助斯坦福大学、纽约大学和和和和NECNEC美国研究院开展深度学习研究美国研究院开展深度学习研究美国研究院开展深度学习研究美国研究院开展深度学习研究20122012年年年年6 6月,月,

12、月,月,Google BrainGoogle Brain项目项目项目项目用用用用1600016000个个个个CPUCPU搭建深度学习平台,搭建深度学习平台,搭建深度学习平台,搭建深度学习平台,在语音、图像识别领域获得重要进展在语音、图像识别领域获得重要进展在语音、图像识别领域获得重要进展在语音、图像识别领域获得重要进展20122012年年年年1212月,月,月,月,微软亚洲研究院微软亚洲研究院微软亚洲研究院微软亚洲研究院在天津的一次活动中利用深度学习在天津的一次活动中利用深度学习在天津的一次活动中利用深度学习在天津的一次活动中利用深度学习技术进行全自动同声传译,效果良好技术进行全自动同声传译,

13、效果良好技术进行全自动同声传译,效果良好技术进行全自动同声传译,效果良好20132013年年年年1 1月,李彦宏宣布成立月,李彦宏宣布成立月,李彦宏宣布成立月,李彦宏宣布成立百度百度百度百度的第一个的第一个的第一个的第一个研究院研究院研究院研究院 Institute Institute of of Deep Deep LearningLearning20132013年年年年4 4月,月,月,月,麻省理工学院技术评论麻省理工学院技术评论麻省理工学院技术评论麻省理工学院技术评论将深度学习列为将深度学习列为将深度学习列为将深度学习列为20132013年年年年十大突破性技术之十大突破性技术之十大突破性

14、技术之十大突破性技术之首首首首20132013年年年年6 6月微软对月微软对月微软对月微软对Windows PhoneWindows Phone平台的必应语音搜索平台的必应语音搜索平台的必应语音搜索平台的必应语音搜索进行了更新。进行了更新。进行了更新。进行了更新。语音识别和反馈的速度提高一倍,语音识别和反馈的速度提高一倍,语音识别和反馈的速度提高一倍,语音识别和反馈的速度提高一倍,精确度提升精确度提升精确度提升精确度提升15%15%20142014年年年年3 3月月月月FacebookFacebook的的的的 DeepfaceDeepface项目使得项目使得项目使得项目使得人脸识别技术的识别率

15、人脸识别技术的识别率人脸识别技术的识别率人脸识别技术的识别率达到达到达到达到 97.25%97.25%97.25%97.25%,准确率几乎可媲美人类,准确率几乎可媲美人类,准确率几乎可媲美人类,准确率几乎可媲美人类1.2 1.2 深度学习的发展深度学习的发展u在在工业界工业界的发展的发展l互联网界巨头进入深度学习领域互联网界巨头进入深度学习领域图 15 机器学习界的执牛耳者与互联网的大鳄的联姻18贪婪算法贪婪算法贪婪算法贪婪算法DBNDBN预训练预训练预训练预训练(Hinton et(Hinton et al.2006al.2006,Bengio et al.2007),Bengio et a

16、l.2007)1.3 1.3 深度信念网深度信念网DBNDBN预训练预训练预训练预训练RBMRBM(Hinton et(Hinton et al.2006al.2006,Bengio et al.2007),Bengio et al.2007)1.4 1.4 深度信念网深度信念网DBNDBN预训练预训练预训练预训练RBMRBM(Hinton et(Hinton et al.2006al.2006,Bengio et al.2007),Bengio et al.2007)1.4 1.4 深度信念网深度信念网DBNDBN预训练预训练预训练预训练RBMRBM(Hinton et(Hinton et

17、al.2006al.2006,Bengio et al.2007),Bengio et al.2007)1.4 1.4 深度信念网深度信念网DBNDBN预训练后预训练后预训练后预训练后进行微调进行微调进行微调进行微调1.4 1.4 深度信念网深度信念网提出了一种用于提出了一种用于训练多训练多层前向网的新算法层前向网的新算法建立建立了基于率失真理论的了基于率失真理论的深度学习模型深度学习模型提出了对提出了对图像变换稳定的分类图像变换稳定的分类RBMRBM模型模型提出提出了用于了用于训练训练RBMRBM的等能量并行回火算法的等能量并行回火算法研究研究研究研究成果成果成果成果以生物神经系统中以生物神

18、经系统中以生物神经系统中以生物神经系统中神经元响应机制神经元响应机制神经元响应机制神经元响应机制为启发,以信息论中的为启发,以信息论中的为启发,以信息论中的为启发,以信息论中的编编编编码理论码理论码理论码理论为指导,为指导,为指导,为指导,建立有效的深度学习模型及其训练方法建立有效的深度学习模型及其训练方法建立有效的深度学习模型及其训练方法建立有效的深度学习模型及其训练方法主要主要工作工作2利用稀疏响应增强反向传播算法的性能利用稀疏响应增强反向传播算法的性能利用稀疏响应增强反向传播算法的性能利用稀疏响应增强反向传播算法的性能2稀疏连接稀疏连接稀疏响应稀疏响应神经元群神经元群刺激刺激(Morri

19、s et(Morris et al.2003al.2003 Barlow,1972Barlow,1972 Olshausen et al Olshausen et al.2004).2004)稀疏连接:稀疏连接:稀疏连接:稀疏连接:大脑皮层中单个神经元只与其余神经元中的大约大脑皮层中单个神经元只与其余神经元中的大约大脑皮层中单个神经元只与其余神经元中的大约大脑皮层中单个神经元只与其余神经元中的大约 极少数相连极少数相连极少数相连极少数相连 稀疏响应:稀疏响应:稀疏响应:稀疏响应:对于给定的某个刺激,神经系统中仅有少量的神经元响应对于给定的某个刺激,神经系统中仅有少量的神经元响应对于给定的某个刺

20、激,神经系统中仅有少量的神经元响应对于给定的某个刺激,神经系统中仅有少量的神经元响应(连接稀疏连接稀疏)(响应稀疏响应稀疏)2.1 2.1 稀疏响应稀疏响应训练方法训练方法稀疏响应稀疏响应BPBP网的结构网的结构输入向量输入向量隐隐 层层输出向量输出向量后向传播后向传播误差误差信号信号前向传播信息,计前向传播信息,计算网络的实际输出算网络的实际输出=()=()=()稀疏稀疏响应响应BPBP网网(SRBP)2.2 2.2 基于稀疏响应的多层前向网基于稀疏响应的多层前向网输入层输入层 隐层隐层网络结构网络结构两类数据(红色,蓝色)两类数据(红色,蓝色)样本数:样本数:384384双螺旋数据双螺旋数

21、据2.3 2.3 实验实验2.3 2.3 实验实验训练误差线训练误差线隐层神经元隐层神经元(第二个隐第二个隐层层)在所有样本上响应在所有样本上响应的直方图的直方图BP(Hintonetal.1986)RoBP(Hirasawa2009)GaBP(Girosietal.1995)LaBP(Williams1995)EnBP2(Chauvin1995)EnBP3(Chauvin1995)EnBP1(Chauvin1995)SaBP非线性稀疏表示非线性稀疏表示非线性稀疏表示非线性稀疏表示第第二二个个隐隐层层在在整整个个数数据据区区域域上上的的响响应应情情况况SRBPBP感受野的局部化感受野的局部化感

22、受野的局部化感受野的局部化2.3 2.3 实验实验泛化泛化泛化泛化能力能力能力能力 (10,000(10,000(10,000(10,000个测试样本个测试样本个测试样本个测试样本)2.3 2.3 实验实验Iris datasetHepatitis datasetGlass datasetWine datasetDiabetes训练训练训练训练误差误差误差误差线线线线UCIUCI数据集数据集2.3 2.3 实验实验2.3 2.3 实验实验Iris隐隐层层神神经经元元在在四四个个训训练练样样本本上上的的响响应应柱柱状状图图Hepatitis稀疏表示稀疏表示稀疏表示稀疏表示ClassWineDia

23、betes非线性稀疏非线性稀疏非线性稀疏非线性稀疏表示表示表示表示IrisHepatitisGlassWineDiabetes隐层神经元在所有训练样本上的响应直方图隐层神经元在所有训练样本上的响应直方图非线性稀疏非线性稀疏非线性稀疏非线性稀疏表示表示表示表示2.3 2.3 实验实验数据集数据集BPGaBPLaBpRoBPEnBP1EnBP2EnBP3SRBPIris96.93%96.67%95.60%96.53%96.93%97.07%97.07%97.33%(4.90)(4.71)(7.08)(5.59)(0.24)(0.24)(0.24)(0.22)Hepatitis72.25%75.25

24、%78.00%78.00%81.50%79.75%80.25%84.25%(22.77)(21.35)(15.48)(17.05)(1.61)(1.59)(1.22)(1.33)Glass93.75%93.37%93.85%93.65%92.88%93.26%93.55%94.01%(5.67)(5.90)(5.88)(5.78)(0.28)(0.24)(0.24)(0.26)Wine97.52%97.63%97.86%98.08%98.08%97.97%98.19%98.19%(3.43)(3.03)(3.18)(2.70)(0.00)(0.10)(0.14)(0.14)Diabetes74

25、.93%75.97%74.43%75.40%76.49%77.17%77.17%77.40%(6.14)(5.32)(7.47)(5.71)(0.26)(0.17)(0.18)(0.17)测试集分类精度,测试集分类精度,5050次实验的平均结果次实验的平均结果泛化泛化泛化泛化能力能力能力能力2.3 2.3 实验实验泛化泛化泛化泛化能力能力能力能力2.3 2.3 实验实验泛化泛化泛化泛化能力能力能力能力2.3 2.3 实验实验大脑中每个大脑中每个神经元在响应时都会比不响应时消耗更多的能量神经元在响应时都会比不响应时消耗更多的能量。我们用新模型中所有隐层神经元的响应值与我们用新模型中所有隐层神经元

26、的响应值与BPBP网隐层神经元的响应值的比值网隐层神经元的响应值的比值来判断在来判断在BPBP网中引入稀疏响应限制是否节省网络处理数据所需要的能量。网中引入稀疏响应限制是否节省网络处理数据所需要的能量。数据集数据集Two-spiralIrisHepatitisGlassWineDiabetesGaBP/BP1.00051.00730.83840.97370.99980.9981RoBP/BP1.97821.26672.57480.97530.99310.0999LaBP/BP1.22790.99740.94590.97690.99600.9994EnBP1/BP0.28900.19030.02

27、900.11060.35670.0544EnBP2/BP0.37660.19190.03330.25800.45860.0603EnBP3/BP0.28080.19220.03040.13650.40470.0565SRBP/BP0.22020.14580.02110.06790.24210.0206 网络所消耗的能量网络所消耗的能量网络所消耗的能量网络所消耗的能量2.3 2.3 实验实验2.4 2.4 本章小结本章小结基于人类神经系统中对于某一个刺激只有少量神经元基于人类神经系统中对于某一个刺激只有少量神经元同时响应的机制,提出用于训练多层前向网的新算法同时响应的机制,提出用于训练多层前向网

28、的新算法实验结果表明实验结果表明提高了网络的泛化能力提高了网络的泛化能力提高了网络的泛化能力提高了网络的泛化能力大幅度降低了网络的能耗大幅度降低了网络的能耗大幅度降低了网络的能耗大幅度降低了网络的能耗训练过程更训练过程更训练过程更训练过程更稳定、收敛速度更快稳定、收敛速度更快稳定、收敛速度更快稳定、收敛速度更快可在一定程度上简化网络的结构可在一定程度上简化网络的结构可在一定程度上简化网络的结构可在一定程度上简化网络的结构基于率失真理论的深度信念网基于率失真理论的深度信念网基于率失真理论的深度信念网基于率失真理论的深度信念网33主要主要主要主要研究在限定失真条件下能够恢复信研究在限定失真条件下能

29、够恢复信研究在限定失真条件下能够恢复信研究在限定失真条件下能够恢复信源符号所需的最小信息率,它给出了在源符号所需的最小信息率,它给出了在源符号所需的最小信息率,它给出了在源符号所需的最小信息率,它给出了在一定失真度情况下信源编码能达到的极一定失真度情况下信源编码能达到的极一定失真度情况下信源编码能达到的极一定失真度情况下信源编码能达到的极限码率,对编码的长度进行了约束。限码率,对编码的长度进行了约束。限码率,对编码的长度进行了约束。限码率,对编码的长度进行了约束。率失真理论率失真理论率失真理论率失真理论3.1 3.1 率失真理论率失真理论等价等价问题问题n编码率编码率编码机制为确定型时编码机制

30、为确定型时在在RBMRBM中,隐层神经元的响应中,隐层神经元的响应概率概率(数据的表示数据的表示)是确定的是确定的 新模型的思想新模型的思想新模型的思想新模型的思想n失真水平失真水平RBMRBM是概率模型,因此使用输入数据分是概率模型,因此使用输入数据分布与模型分布之间的布与模型分布之间的Kullback-Kullback-LeiblerLeibler散度作为失真函数散度作为失真函数在在RBMRBM中中,用输入数据的分布和用输入数据的分布和用输入数据的分布和用输入数据的分布和深度信念网深度信念网深度信念网深度信念网的堆的堆的堆的堆积模型限制波尔兹曼机(积模型限制波尔兹曼机(积模型限制波尔兹曼机

31、(积模型限制波尔兹曼机(RBMRBMRBMRBM)的平稳)的平稳)的平稳)的平稳分布之间的分布之间的分布之间的分布之间的Kullback-LeiblerKullback-LeiblerKullback-LeiblerKullback-Leibler散度作散度作散度作散度作为失真函数为失真函数为失真函数为失真函数,并采用神经系统中神经,并采用神经系统中神经,并采用神经系统中神经,并采用神经系统中神经元的元的元的元的稀疏响应来实现小的编码率稀疏响应来实现小的编码率稀疏响应来实现小的编码率稀疏响应来实现小的编码率。新模型新模型新模型新模型RD-DBN模型模型(RD-RBM)(RD-RBM)3.2 3

32、.2 基于率失真理论的深度信念网基于率失真理论的深度信念网1000010000张图,每张像素为张图,每张像素为12X1212X12网络共有两个隐层,第一个隐层有网络共有两个隐层,第一个隐层有144144个神经元,第二个隐层有个神经元,第二个隐层有5050个神经元个神经元自然自然图像图像3.3 3.3 实验实验非线性稀疏表示非线性稀疏表示非线性稀疏表示非线性稀疏表示1000010000张图,每张像素为张图,每张像素为12X1212X12网络共有两个隐层,第一个隐层有网络共有两个隐层,第一个隐层有144144个神经元,第二个隐层有个神经元,第二个隐层有5050个神经元个神经元DBN学到的学到的W1

33、RD-DBN学到的学到的W1自然自然图像图像3.3 3.3 实验实验特征特征特征特征1000010000张图,每张像素为张图,每张像素为12X1212X12网络共有两个隐层,第一个隐层有网络共有两个隐层,第一个隐层有144144个神经元,第二个隐层有个神经元,第二个隐层有5050个神经元个神经元自然自然图像图像特征特征特征特征RD-DBN学到的学到的W23.3 3.3 实验实验第一个样本所引起的隐层第一个样本所引起的隐层(第一个隐层第一个隐层)神经元响应概率的柱状图神经元响应概率的柱状图DBNRD-DBN非线性稀非线性稀非线性稀非线性稀疏表示疏表示疏表示疏表示手写体数据,手写体数据,1010类

34、,每类取类,每类取20002000个数据作为实验数据个数据作为实验数据网络共有两个网络共有两个隐层,第一个隐层,第一个隐层有隐层有196196个神个神经元,第二个经元,第二个隐层有隐层有5050个神个神经元经元手写体数据手写体数据3.3 3.3 实验实验特征特征特征特征3.3 3.3 实验实验特征特征特征特征3.3 3.3 实验实验分类误判率分类误判率(从每类数据中随机抽取从每类数据中随机抽取100100,500500,10001000个样本作为训练数据,个样本作为训练数据,5050次实验平均结果次实验平均结果)泛化能力泛化能力泛化能力泛化能力3.3 3.3 实验实验部分响应次数较多的隐层神经

35、元的判别能力部分响应次数较多的隐层神经元的判别能力部分响应次数较多的隐层神经元的判别能力部分响应次数较多的隐层神经元的判别能力MNISTMNIST数据集:水平轴为所选取的神经元个数(在训练数据上响应次数较多),垂直轴为具有数据集:水平轴为所选取的神经元个数(在训练数据上响应次数较多),垂直轴为具有部分隐层神经元的网络在训练集(每类分别取部分隐层神经元的网络在训练集(每类分别取100100,500500和和10001000个样本作为训练集)和测试集个样本作为训练集)和测试集上的分类误差率(上的分类误差率(%)。)。3.3 3.3 实验实验5 5类,每类取类,每类取20002000个数据作为训练数

36、据个数据作为训练数据1010类,每类取类,每类取20002000个数据作为训练数据个数据作为训练数据CIFARCIFAR数据数据NORBNORB数据数据3.3 3.3 实验实验特征特征特征特征3.3 3.3 实验实验 特征特征特征特征3.3 3.3 实验实验泛化能力泛化能力泛化能力泛化能力3.3 3.3 实验实验NORB分类误判率分类误判率(从每类数据中随机抽取从每类数据中随机抽取200200,500500个样本作为训练数据,个样本作为训练数据,5050次实验平均结果次实验平均结果)分类误判率分类误判率(从每类数据中随机从每类数据中随机抽取抽取10001000个个样本作为训练数据,样本作为训练

37、数据,5050次实验平均结果次实验平均结果)CIFAR-10基于率失真理论的思想提出了新的深度信念网模型基于率失真理论的思想提出了新的深度信念网模型实验结果表明实验结果表明学习到的数据表示更加稀疏学习到的数据表示更加稀疏学习到的数据表示更加稀疏学习到的数据表示更加稀疏能够提取不同抽象水平的特征能够提取不同抽象水平的特征能够提取不同抽象水平的特征能够提取不同抽象水平的特征学习到的数据表示更具判别能力学习到的数据表示更具判别能力学习到的数据表示更具判别能力学习到的数据表示更具判别能力3.4 3.4 本章小结本章小结用等能量跳转的并行回火算法训练用等能量跳转的并行回火算法训练用等能量跳转的并行回火算

38、法训练用等能量跳转的并行回火算法训练RBMRBMRBMRBM5 4极大似然极大似然极大似然极大似然Gibbs抽样抽样极大似然的困境极大似然的困境基于模型的期望难以计算!基于模型的期望难以计算!无数次交替无数次交替GibbsGibbs采样的时间开销大采样的时间开销大!4 4.1 RBM.1 RBM训练的困境训练的困境梯度梯度计算的算的难点:如何点:如何抽取模型分抽取模型分布的布的样本?本?对比散度比散度(contrastivedivergence)持持续对比散度比散度(persistentcontrastivedivergence)快速持快速持续对比散度比散度(fastpersistentcon

39、trastivedivergence)采用单个马尔科夫采用单个马尔科夫采用单个马尔科夫采用单个马尔科夫链近似模型分布链近似模型分布链近似模型分布链近似模型分布经典的典的马尔科夫科夫链蒙特卡洛蒙特卡洛(MCMC)方方法法以以训练数据作数据作为马尔科夫科夫链的初始状的初始状态,且只,且只进行行k步步Gibbs采采样马尔科夫科夫链的初始状的初始状态为上一上一步更新参数步更新参数时的最的最终状状态在在CD的的负项中添加中添加“fastweights”集集4 4.2.2 几种经典的训练方法几种经典的训练方法从从理论理论上讲,人们总能通过上讲,人们总能通过MCMCMCMC采集到符合目标分布的采集到符合目标

40、分布的样本样本实际实际应用应用中,人们通常不了解中,人们通常不了解多少次多少次转移是足够转移是足够的。这个问题很大程的。这个问题很大程度上受到度上受到目标分布陡峭目标分布陡峭程度的影响。程度的影响。低概率区域采用单个马尔科夫链抽样的局限性采用单个马尔科夫链抽样的局限性采用单个马尔科夫链抽样的局限性采用单个马尔科夫链抽样的局限性典型的双峰分布以及典型的双峰分布以及MCMC可能面临的问题可能面临的问题采集的样本很容易陷入模型分布的局部区域,相当于仅在某个单峰附近采样采集的样本很容易陷入模型分布的局部区域,相当于仅在某个单峰附近采样采集的样本很容易陷入模型分布的局部区域,相当于仅在某个单峰附近采样采

41、集的样本很容易陷入模型分布的局部区域,相当于仅在某个单峰附近采样4 4.2.2 几种经典的训练方法几种经典的训练方法借助多个辅助的借助多个辅助的GibbsGibbs链链,将,将低温分布下的状态转移到高温分布低温分布下的状态转移到高温分布中,实现中,实现目标分布中不同峰值状态的转移,达到对整个分布采样的目的。目标分布中不同峰值状态的转移,达到对整个分布采样的目的。高温高温低温低温温度越高,温度越高,分布越均匀分布越均匀Gibbs抽样抽样Gibbs抽样抽样局部转移局部转移全局跳转全局跳转并行回火并行回火并行回火并行回火(Parallel Tempering,PT)(Parallel Temperi

42、ng,PT)(Parallel Tempering,PT)(Parallel Tempering,PT)4 4.2.2 几种经典的训练方法几种经典的训练方法相邻相邻GibbsGibbs链间的状态交换概率依赖于链间的状态交换概率依赖于GibbsGibbs链的温度和状态的能量链的温度和状态的能量并行回火算法训练并行回火算法训练并行回火算法训练并行回火算法训练RBMRBMRBMRBM的局限性的局限性的局限性的局限性4 4.2.2 几种经典的训练方法几种经典的训练方法在在PTPT中,使用中,使用过少的过少的辅助分布辅助分布或者使用或者使用不不合适的辅助分布合适的辅助分布都会都会导致相邻导致相邻Gibb

43、sGibbs链的状链的状态拥有较大差异的能态拥有较大差异的能量,从而产生量,从而产生极低的极低的交换概率,不利于交换概率,不利于RBMRBM的训练的训练0容易容易困难困难4 4.3.3 等能量抽样等能量抽样 Kou于于2006年提出等能量抽样年提出等能量抽样利用温度和能量截尾的方法构造多个辅助分布利用温度和能量截尾的方法构造多个辅助分布()等等能量抽样直接用于能量抽样直接用于RBMRBM训练的难点训练的难点在在RBMRBM中,基于以上辅助分布,可以推导出模型的条件分布为中,基于以上辅助分布,可以推导出模型的条件分布为在此在此在此在此分段函数中,分段函数中,分段函数中,分段函数中,我们需要在我们

44、需要在我们需要在我们需要在并不并不并不并不完全知晓状态的完全知晓状态的完全知晓状态的完全知晓状态的情况情况情况情况下下下下计算状态计算状态计算状态计算状态的能量的能量的能量的能量为了得到较高的状态交换概率,我们采用为了得到较高的状态交换概率,我们采用等能量跳转等能量跳转直接在具有相似能量的状态间进行跳转,跳过低概率区域直接在具有相似能量的状态间进行跳转,跳过低概率区域直接在具有相似能量的状态间进行跳转,跳过低概率区域直接在具有相似能量的状态间进行跳转,跳过低概率区域5.4 5.4 用用等等能量跳转的并行回火算法训练能量跳转的并行回火算法训练RBMRBM基于等能量跳转的并行回火算法基于等能量跳转

45、的并行回火算法基于等能量跳转的并行回火算法基于等能量跳转的并行回火算法(PT with PT with equi-energy equi-energy moves,PTEEmoves,PTEE)PTEE局部转移局部转移全局跳转全局跳转Gibbssampling划分划分第一个能第一个能量集量集第第d个能个能量集量集状态交换状态交换状态交换状态交换每个链的状态转移每个链的状态转移过程不受其它链的过程不受其它链的影响影响状态被划分到多个能状态被划分到多个能量集中,并在能量集量集中,并在能量集内部进行状态交换内部进行状态交换基于等能量跳转的并行回火算法基于等能量跳转的并行回火算法基于等能量跳转的并行回

46、火算法基于等能量跳转的并行回火算法(PT with PT with equi-energy equi-energy moves,PTEEmoves,PTEE)4 4.4.4 用用等等能量跳转的并行回火算法训练能量跳转的并行回火算法训练RBMRBM小小小小数据集数据集数据集数据集基于四个基本模型基于四个基本模型(模型模型之间的差异性比较大之间的差异性比较大)而而产生的数据集。对于每一产生的数据集。对于每一个基本模型,以个基本模型,以0.0010.001的的概率转换模型中的像素概率转换模型中的像素(0(0变成变成1 1,1 1变成变成0)0),从而生,从而生成成25002500张与该基本模型相张与

47、该基本模型相似的图片。似的图片。MNISTMNISTMNISTMNIST手写体数据集手写体数据集手写体数据集手写体数据集 数数数数 据据据据4 4.5.5 实验实验在在在在PTPTPTPT算法中,算法中,算法中,算法中,相邻相邻相邻相邻马尔科夫链的马尔科夫链的马尔科夫链的马尔科夫链的状态状态状态状态拥有拥有拥有拥有差异较大的能量差异较大的能量差异较大的能量差异较大的能量,这会引起低的状态,这会引起低的状态,这会引起低的状态,这会引起低的状态交换概率,不利于交换概率,不利于交换概率,不利于交换概率,不利于RBMRBMRBMRBM的训练;而在的训练;而在的训练;而在的训练;而在PTEEPTEEPT

48、EEPTEE算法中,同一个算法中,同一个算法中,同一个算法中,同一个能量集内能量集内能量集内能量集内的状态拥有的状态拥有的状态拥有的状态拥有近似的能量近似的能量近似的能量近似的能量,保证了较高的状态交换概率。,保证了较高的状态交换概率。,保证了较高的状态交换概率。,保证了较高的状态交换概率。某步参数更新时,有可能进行全局跳转的马尔科夫链状态的能量某步参数更新时,有可能进行全局跳转的马尔科夫链状态的能量:(左左)PT)PT;(右右)PTEE)PTEEPTPTPTPT和和和和PTEEPTEEPTEEPTEE中全局跳转的比较中全局跳转的比较中全局跳转的比较中全局跳转的比较4 4.5.5 实验实验PT

49、PTPTPT和和和和PTEEPTEEPTEEPTEE中全局跳转的比较中全局跳转的比较中全局跳转的比较中全局跳转的比较整个训练过程中,每个整个训练过程中,每个马尔科夫链与其它链交马尔科夫链与其它链交换状态的平均交换概率。换状态的平均交换概率。对于对于对于对于PTEEPTEEPTEEPTEE算法,几乎所有的马尔科夫链的算法,几乎所有的马尔科夫链的算法,几乎所有的马尔科夫链的算法,几乎所有的马尔科夫链的平均交换概率平均交换概率平均交换概率平均交换概率都都都都比比比比PTPTPTPT算法的算法的算法的算法的高高高高4 4.5.5 实验实验PTPTPTPT和和和和PTEEPTEEPTEEPTEE中全局跳

50、转的比较中全局跳转的比较中全局跳转的比较中全局跳转的比较在在在在PTPTPTPT中中中中,相邻,相邻,相邻,相邻的马尔科夫链才的马尔科夫链才的马尔科夫链才的马尔科夫链才交换状态;在交换状态;在交换状态;在交换状态;在PTEEPTEEPTEEPTEE中,任意两个中,任意两个中,任意两个中,任意两个马尔科夫链都有马尔科夫链都有马尔科夫链都有马尔科夫链都有可能交换状态可能交换状态可能交换状态可能交换状态4 4.5.5 实验实验5 5次实验的平均结果,小数据集次实验的平均结果,小数据集似然得分似然得分似然得分似然得分uuPTEEPTEEPTEEPTEE算法比算法比算法比算法比PTPTPTPT算法能够更

51、快地得算法能够更快地得算法能够更快地得算法能够更快地得到较好的结果到较好的结果到较好的结果到较好的结果,且,且,且,且最终结果也比最终结果也比最终结果也比最终结果也比PTPTPTPT算法好算法好算法好算法好。uu随着随着随着随着迭代步骤的增加,使用迭代步骤的增加,使用迭代步骤的增加,使用迭代步骤的增加,使用单个单个单个单个马尔科夫链马尔科夫链马尔科夫链马尔科夫链的的的的CDCDCDCD算法和算法和算法和算法和PCDPCDPCDPCD算法算法算法算法的的的的学习效果突然变差并且持续恶学习效果突然变差并且持续恶学习效果突然变差并且持续恶学习效果突然变差并且持续恶化化化化,最终得到,最终得到,最终得

52、到,最终得到很低很低很低很低的似然值。的似然值。的似然值。的似然值。4 4.5.5 实验实验5 5次实验的平均结果,次实验的平均结果,MNISTMNIST数据集数据集似然得分似然得分似然得分似然得分5 5次实验的平均结果,小数据集次实验的平均结果,小数据集4 4.5.5 实验实验结合等能量抽样和并行回火抽样方法提出了用于训练结合等能量抽样和并行回火抽样方法提出了用于训练RBMRBM的新算法的新算法实验结果表明实验结果表明 新算法能够提高抽样过程中的混合率新算法能够提高抽样过程中的混合率新算法能够提高抽样过程中的混合率新算法能够提高抽样过程中的混合率 以更快的速度获得更高的似然值以更快的速度获得

53、更高的似然值以更快的速度获得更高的似然值以更快的速度获得更高的似然值 算法受马尔科夫链个数的影响较小算法受马尔科夫链个数的影响较小算法受马尔科夫链个数的影响较小算法受马尔科夫链个数的影响较小4 4.6.6 本章小结本章小结结果与问题结果与问题结果与问题结果与问题5 5 以以以以率失真理论为指导,建立了一种新的深度信念网率失真理论为指导,建立了一种新的深度信念网率失真理论为指导,建立了一种新的深度信念网率失真理论为指导,建立了一种新的深度信念网模模模模 型型型型,该模型由多个基于率失真理论的,该模型由多个基于率失真理论的,该模型由多个基于率失真理论的,该模型由多个基于率失真理论的RBMRBMRB

54、MRBM堆积而成;堆积而成;堆积而成;堆积而成;5 5.1.1 结果结果 基于基于基于基于人类神经系统中对于人类神经系统中对于人类神经系统中对于人类神经系统中对于某个某个某个某个刺激仅有少量神经元刺激仅有少量神经元刺激仅有少量神经元刺激仅有少量神经元同同同同 时时时时响应的机制,提出响应的机制,提出响应的机制,提出响应的机制,提出了用于了用于了用于了用于训练多层前向网的新算法训练多层前向网的新算法训练多层前向网的新算法训练多层前向网的新算法;结合结合结合结合等能量抽样和并行回火抽样两种抽样方法,等能量抽样和并行回火抽样两种抽样方法,等能量抽样和并行回火抽样两种抽样方法,等能量抽样和并行回火抽样

55、两种抽样方法,提出提出提出提出 了了了了一种用于训练一种用于训练一种用于训练一种用于训练RBMRBMRBMRBM的新算法。的新算法。的新算法。的新算法。深化基于率失真理论的深度学习模型研究;深化基于率失真理论的深度学习模型研究;深化基于率失真理论的深度学习模型研究;深化基于率失真理论的深度学习模型研究;隐层神经元个数的确定;隐层神经元个数的确定;隐层神经元个数的确定;隐层神经元个数的确定;提取与任务相关的多层本质特征。提取与任务相关的多层本质特征。提取与任务相关的多层本质特征。提取与任务相关的多层本质特征。5.2 5.2 进一步的研究问题进一步的研究问题Nannan Ji,Jiangshe Z

56、hang,Chunxia Zhang.A Nannan Ji,Jiangshe Zhang,Chunxia Zhang.A sparse-response deep sparse-response deep belief network based belief network based on on rate distortion theory,rate distortion theory,Pattern Pattern RecognitionRecognition,2014,47(9):3179-31912014,47(9):3179-3191.Nannan Ji,Jiangshe Zha

57、ng,Chunxia Zhang,Nannan Ji,Jiangshe Zhang,Chunxia Zhang,et al.et al.Enhancing Enhancing performance performance of of restricted restricted Boltzmann Boltzmann machine machine via via log-sum log-sum regularizationregularization,Knowledge-Based SystemsKnowledge-Based Systems,2014,63:82-96,2014,63:82

58、-96.Nannan Ji,Nannan Ji,Jiangshe Zhang,Chunxia Zhang,et al.Discriminative Jiangshe Zhang,Chunxia Zhang,et al.Discriminative restricted Boltzmann machine for invariant pattern recognition with restricted Boltzmann machine for invariant pattern recognition with linear transformations,linear transforma

59、tions,Pattern Recognition LettersPattern Recognition Letters,2014,45:172-180.2014,45:172-180.Jiangshe Jiangshe Zhang,Nannan Ji,Zhang,Nannan Ji,Junmin Junmin Liu,Liu,et al.et al.Enhancing Enhancing performance performance of the backpropagation algorithm via sparse response of the backpropagation alg

60、orithm via sparse response regularization,regularization,NeurocomputingNeurocomputing,2014,Accept,2014,Accept with Minor with Minor Revision.Revision.Nannan Ji,Nannan Ji,Jiangshe Jiangshe Zhang.Parallel tempering with equi-energy moves Zhang.Parallel tempering with equi-energy moves for training of

61、restricted Boltzmann for training of restricted Boltzmann machines,machines,In Proceedings of IEEE In Proceedings of IEEE International Joint Conference on Neural NetworksInternational Joint Conference on Neural Networks,2014:120-127.,2014:120-127.主要研究主要研究成果成果致谢致谢:研究受科技部研究受科技部973973项目项目 国家自然科学基金委面上项目国家自然科学基金委面上项目 重大研究计划资助重大研究计划资助 研究工作主要参加者:研究工作主要参加者:姬楠楠、张春霞、刘军民姬楠楠、张春霞、刘军民 协助协助PPTPPT制作:姬楠楠制作:姬楠楠 谢谢 谢!谢!敬敬 请请 批批 评评 指指 正!正!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!