神经网络与话者识别

上传人:沈*** 文档编号:171451150 上传时间:2022-11-26 格式:PPT 页数:28 大小:584KB
收藏 版权申诉 举报 下载
神经网络与话者识别_第1页
第1页 / 共28页
神经网络与话者识别_第2页
第2页 / 共28页
神经网络与话者识别_第3页
第3页 / 共28页
资源描述:

《神经网络与话者识别》由会员分享,可在线阅读,更多相关《神经网络与话者识别(28页珍藏版)》请在装配图网上搜索。

1、话者识别话者识别人工神经网络人工神经网络BP网络网络RBF网络网络TextTextText话者识别话者识别 话者识别属于生物特征识别技术的一种,是一项根据语音信号中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。话者识别系统主要包括两部分,即特征检测特征检测和模式匹配模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。话者识别

2、分类话者识别分类话者识别话者识别话者辨认话者辨认话者确认话者确认固定文本系统固定文本系统自由文本系统自由文本系统话者辨认话者辨认语音语音特征提取特征提取相似度相似度参考模型参考模型(话者(话者#1)最大选择最大选择辨识结果辨识结果(话者(话者ID)相似度相似度参考模型参考模型(话者(话者#2)相似度相似度参考模型参考模型(话者(话者#N)话者确认话者确认语音语音特征提取特征提取相似度相似度参考模型参考模型(话者(话者#M)相似度相似度阈值阈值话者话者ID(#M)确认结果确认结果(接受或拒绝)(接受或拒绝)模式匹配模式匹配welcome to use these PowerPoint templ

3、ates,New Content design,10 years experience模式匹配的方法模式匹配的方法目前说话人识别技术主流方法大致有:目前说话人识别技术主流方法大致有:1)基于模板模型的基于模板模型的方法(动态时间归正法方法(动态时间归正法DTW和矢量量化法和矢量量化法VQ););2)基于基于概率模型的方法(隐马尔可夫模型法概率模型的方法(隐马尔可夫模型法HMM和高斯混合模和高斯混合模型法型法GMM););3)基于人工神经网络(基于人工神经网络(Artificial Neural Network,ANN)的方法;)的方法;4)基于支持向量机(基于支持向量机(Support Vec

4、tor Machine,SVM)的方法;)的方法;5)融合方法(利用各种融合方法(利用各种方法的优点进行融合)。方法的优点进行融合)。人工神经网络人工神经网络 基于基于ANN的语音识别系统通常由神经元、训练算法及网的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。络结构等三大要素构成。ANN采用了并行处理机制、非线性采用了并行处理机制、非线性信息处理机制和信息分布存贮机制等多方面的现代信息技术成信息处理机制和信息分布存贮机制等多方面的现代信息技术成果,因此,具有高速的信息处理能力,并且有着较强的适应和果,因此,具有高速的信息处理能力,并且有着较强的适应和自动调节能力,在训练过程中能

5、不断调整自身的参数权值和拓自动调节能力,在训练过程中能不断调整自身的参数权值和拓扑结构,以适应环境的和系统性能优化的需求,在模式识别中扑结构,以适应环境的和系统性能优化的需求,在模式识别中有着速度快、识别率高等显著特点,有着速度快、识别率高等显著特点,人工神经网络的发展人工神经网络的发展人工神经网络的研究始于40年代初。半个世纪以来,经历了兴起、高潮与萧条、高潮及稳步发展的远为曲折的道路。1943年,心理学家W.S.Mcculloch和数理逻辑学家W.Pitts 提出了MP模型。1949年,心理学家D.O.Hebb提出突触联系可变的假设,根据这一假设提出的学习规律为神经网络的学习算法奠定了基础

6、。1957 年,计算机科学家Rosenblatt提出了著名的感知机模型。1960年,B.Windrow和E.Hoff提出了自适应线性单元,它可用于自适应滤波、预测和模式识别。1968年一本名为感知机的著作中指出线性感知机功能是有限的,它不能解决如异或这样的基本问题,而且多层网络还不能找到有效的计算方法。60年代末期,人工神经网络的研究进入了低潮。80年代初期,模拟与数字混合的超大规模集成电路制作技术提高到新的水平,完全付诸实用化,美国的物理学家Hopfield于1982年、1984年在美国科学院院刊上发表了两篇关于人工神经网络研究的论文,引起了巨大的反响。人们重新认识到神经网络的威力以及付诸应

7、用的现实性。神经网络模型神经网络模型神经元神经元神经元是神经网络的基本计算单元,一般是一种多个输入和神经元是神经网络的基本计算单元,一般是一种多个输入和一个输出的非线性单元,可以有反馈输入和闭值参数一个输出的非线性单元,可以有反馈输入和闭值参数神经网络连接方式神经网络连接方式前馈型网络前馈型网络 反馈性网络反馈性网络神经网络的连接方式神经网络的连接方式 在前馈型网络中,各神经元接受前一层的输在前馈型网络中,各神经元接受前一层的输入,并输出给下一层,没有反馈。连接点分为两入,并输出给下一层,没有反馈。连接点分为两类,即输入单元和计算单元。每一个计算单元可类,即输入单元和计算单元。每一个计算单元可

8、以有任意以有任意n个输入但只有一个输出,它可祸合到任个输入但只有一个输出,它可祸合到任意多个其它结点作为输入。通常前馈网络分为不意多个其它结点作为输入。通常前馈网络分为不同的层,第同的层,第l层的输入只与第卜层的输入只与第卜l层的输出相连,输层的输出相连,输入和输出结点与外界相连,而其它中间层则称之入和输出结点与外界相连,而其它中间层则称之为隐层。根据隐层的层数,还可以再分为单层连为隐层。根据隐层的层数,还可以再分为单层连接方式、多层连接方式。接方式、多层连接方式。神经网络的连接方式神经网络的连接方式 在反馈型网络中,可以看成包含一个单层的在反馈型网络中,可以看成包含一个单层的神经元,所有神经

9、元结点都是计算单元,同时也神经元,所有神经元结点都是计算单元,同时也可接受输入,并向外界输出。这种网络可以画成可接受输入,并向外界输出。这种网络可以画成一个无向图,其中每条连接线都是双向的。反馈一个无向图,其中每条连接线都是双向的。反馈型网络的输出由当前输入和先前的输出,以及网型网络的输出由当前输入和先前的输出,以及网络参数和结构决定,因此显示出短期一记忆的性络参数和结构决定,因此显示出短期一记忆的性质。质。HoPfield网络就是反馈型网络的代表。网络就是反馈型网络的代表。典型神经网络模型典型神经网络模型1)感知机)感知机2)线性神经网络)线性神经网络3)BP网络网络4)径向基函数网络)径向

10、基函数网络5)自组织网络)自组织网络6)反馈网络)反馈网络BP神经网络神经网络 BP(Back Propagation)网络是)网络是1986年由年由Rumelhart和和McCelland为首的科学家小组提出,为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。多层是目前应用最广泛的神经网络模型之一。多层BP神经网络模型的拓扑结构如图所示。由图可见,神经网络模型的拓扑结构如图所示。由图可见,它由输入层、中间层和输出层组成。其中,中间它由输入层、中间层和输出层组成。其中,中间层也叫隐含层,它可以是一层或多

11、层。层也叫隐含层,它可以是一层或多层。BP网络标准学习算法网络结构:输入层有网络结构:输入层有n个神经元,隐含层有个神经元,隐含层有p个神经元,输出个神经元,输出层有层有q个神经元。个神经元。输入向量:输入向量:隐含层输入向量隐含层输入向量隐含层输出向量隐含层输出向量 输出层输入向量输出层输入向量输出层输出向量输出层输出向量 期望输出向量期望输出向量输入层与中间层的连接权值输入层与中间层的连接权值 隐含层个神经元的阈值隐含层个神经元的阈值隐含层与输出层的连接权值隐含层与输出层的连接权值 输出层个神经元的阈值输出层个神经元的阈值样本数据个数样本数据个数K=1,2,.,m激活函数激活函数f(.)s

12、型函数型函数误差函数误差函数1(,)nXxx1(,)phihihi1(,)phohoho1(,)qyoyoyo1(,)qyiyiyi1(,)qdododoihwhowhbob211()()2qoooed kyo kBP算法基本流程算法基本流程初始化网络权值和神经元的阈值(最简单的办法初始化网络权值和神经元的阈值(最简单的办法就是随机初始化)。就是随机初始化)。前向传播:按照公式一层一层的计算隐层神经元前向传播:按照公式一层一层的计算隐层神经元和输出层神经元的输入和输出。和输出层神经元的输入和输出。后向传播:根据公式修正权值和阈值。后向传播:根据公式修正权值和阈值。BP网络标准学习算法第一步,网

13、络初始化第一步,网络初始化给各连接权值分别赋一个区间(给各连接权值分别赋一个区间(-1,1)内地随机数,设定误)内地随机数,设定误差函数差函数e,给定计算精度值,给定计算精度值 和最大学习次数和最大学习次数M第二步,随机选取第第二步,随机选取第k个输入样本及对应期望输出个输入样本及对应期望输出第三步,计算隐含层各神经网络的输入和输出第三步,计算隐含层各神经网络的输入和输出h=1,.,p o=1,.,q1()(),()nX kx kx k1()(),()oqd kd kd k1()()nhihihihikw x kb()()hhho kf hi k1()()pohohohyi kw ho kb(

14、)()ooyo kf yi kBP网络标准学习算法第四步,利用网络期望输出和实际输出,计算误差函数对输出第四步,利用网络期望输出和实际输出,计算误差函数对输出层的个神经元的偏导数层的个神经元的偏导数第五步,利用隐含层到输出层的连接权值、输出层的第五步,利用隐含层到输出层的连接权值、输出层的 和和隐含层的输出计算误差函数对隐含层个神经元的偏导数隐含层的输出计算误差函数对隐含层个神经元的偏导数第六步,利用输出层各神经元的第六步,利用输出层各神经元的 和隐含层个神经元的输出和隐含层个神经元的输出来修正连接权值来修正连接权值()ok()ok()hk()ok()how k1()()()()()hoohh

15、oNNhohoohewkk ho kwwwk ho k BP网络标准学习算法第七步,利用隐含层个神经元的第七步,利用隐含层个神经元的 和输入层个神经元的输和输入层个神经元的输入修正连结权。入修正连结权。第八步,计算全局误差第八步,计算全局误差()hk1()()()()()()()hihhiihhihNNihihhihi keew kk x kwhi kwwwk x k2111()()2qmookoEdkykm BP网络标准学习算法第九步,判断网络误差是否满足要求。当误差达到预设精度或第九步,判断网络误差是否满足要求。当误差达到预设精度或学习次数大于设定的最大次数,则结束算法。否则,选取下一学习

16、次数大于设定的最大次数,则结束算法。否则,选取下一个学习样本及对应的期望输出,返回到第三步,进入下一轮学个学习样本及对应的期望输出,返回到第三步,进入下一轮学习。习。BP网络的优点网络的优点1)非线性映射能力非线性映射能力:神经网络能以任意精度逼近任何神经网络能以任意精度逼近任何非线性连续函数非线性连续函数2)并行分布处理方式并行分布处理方式:信息存储在神经元之间的连接上,信息存储在神经元之间的连接上,从单个权值中看不出存储信息的内容,这种分布储存和从单个权值中看不出存储信息的内容,这种分布储存和并行处理使它具有很强的容错性和很快的处理速度。并行处理使它具有很强的容错性和很快的处理速度。3)自

17、学习和自适应能力)自学习和自适应能力:神经网络在训练时,能从输入、输神经网络在训练时,能从输入、输出的数据中提取出规律性的知识,一记忆于网络的权值中,出的数据中提取出规律性的知识,一记忆于网络的权值中,并具有泛化能力,即将这组权值应用于一般情形的能力并具有泛化能力,即将这组权值应用于一般情形的能力.5)容错能力容错能力:由于信息被分布存放在几乎整个网络中,由于信息被分布存放在几乎整个网络中,当其中的某一个点或者某几个点被破坏时信息仍然可当其中的某一个点或者某几个点被破坏时信息仍然可以被存取。系统在受到局部损伤时还可以正常工作。以被存取。系统在受到局部损伤时还可以正常工作。BP网络的缺点网络的缺

18、点1)BP网络是一个非线性优化问题,这不可避免地存在局部网络是一个非线性优化问题,这不可避免地存在局部极小问题。网络的极值通过沿局部改善的方向一步一步进行极小问题。网络的极值通过沿局部改善的方向一步一步进行调整,力图达到使误差函数调整,力图达到使误差函数E最小化的全局解,但实际上常最小化的全局解,但实际上常得到的是局部极小点。得到的是局部极小点。2)BP算法收敛速度很慢。学习过程中,下降慢,算法收敛速度很慢。学习过程中,下降慢,学习速度缓,易出现一个长时间的误差平坦区,学习速度缓,易出现一个长时间的误差平坦区,即出现平台。即出现平台。(3)BP网络结构选择不一,网络过大,在训练中效率不高,网络

19、结构选择不一,网络过大,在训练中效率不高,而月而月.还有可能由于过拟合造成网络性能脆弱,容错性下还有可能由于过拟合造成网络性能脆弱,容错性下降,浮点溢出,而太小的网络可能根本不收敛。降,浮点溢出,而太小的网络可能根本不收敛。RBF神经网络神经网络 径向基函数神经网络是由J.Moody和C.Darken在80年代末提出的一种神经网络,它是一种具有单隐层的三层前馈网络,它模拟了人脑中局部调整,相互覆盖接受域的神经网络结构,因此,RBF是一种局部逼近网络,它能够以任意精度逼近任意连续函数,特别适用于解决分类问题。全局逼近网络:当神经网络的一个或多个可调参数(权值或阈值)对任何一个输出都有影响。局部逼

20、近网络:对网络输入空间的某个局部区域只有少数几个连接权影响网络的输出。RBF神经网络结构神经网络结构 RBF网络的结构与多层前向网络相似,它是一种三层前向网络。第一层即输入层有信号源节点组成;第二层为隐含层,隐单元数视所描述的问题的需要而定,隐单元的变换函数为径隐单元的变换函数为径向基函数向基函数,它是对称中心径向对称且衰减的非线性函数;第三层为输出层,节点激活函数为线性函数节点激活函数为线性函数。它对输入模式的作用作出响应。由于输入到输出的映射是非线性的,而隐含层空间到输出空间的映射是线性的,从而可以大大加快学习速度并避免局部极小问题RBF网络工作原理函数逼近:以任意精度逼近任一连续函数。一

21、般函数都可以表函数逼近:以任意精度逼近任一连续函数。一般函数都可以表示成一组基函数的线性组合。示成一组基函数的线性组合。RBF网络相当于用隐层单元的输网络相当于用隐层单元的输出构成一组基函数,然后用输出层来进行线性组合,完成逼近出构成一组基函数,然后用输出层来进行线性组合,完成逼近功能。功能。分类:解决非线性可分问题,分类:解决非线性可分问题,RBF网络用隐层单元先将非线性网络用隐层单元先将非线性可分的输入空间变换到线性可分的特征空间,然后用输出层来可分的输入空间变换到线性可分的特征空间,然后用输出层来进行线性划分,完成分类功能。进行线性划分,完成分类功能。RBF的特点的特点1)前向网络;)前

22、向网络;2)RBF网络的作用函数为高斯函数,是局部的,网络的作用函数为高斯函数,是局部的,BP网络的作用函数是网络的作用函数是S函数,是全局的。函数,是全局的。3)如何确定)如何确定RBF网络隐层节点的中心及基宽度参数网络隐层节点的中心及基宽度参数是一个困难问题是一个困难问题4)RBF网络具有唯一最佳逼近的特性,且无局部网络具有唯一最佳逼近的特性,且无局部极小。极小。神经网络在话者识别中存在的问题神经网络在话者识别中存在的问题 用于说话人识别的人工神经网络大部分集中在多层感知器结构的神经网络结构上,如反向传播人工神经网络、人工神经预测网络、径向基函数神经网络、时间延迟人工神经网络等。说话人识别中,待识人群往往很大。随着待识人群数目的增加。说话人特征分布间重叠区域增加,说话人识别率将降低。换句话说,在识别过程中不可避免地存在着说话人特征参数的有限性与说话人特征空间无穷划分之间的矛盾,这是所有说话人识别方法所面临的共同问题。在神经网络中,这一问题又以新的形式显现出来。当人群数目增加时,网络的训练时间急剧曾加,理论上当人群数目很大时将无法完成网络的训练,因此在使用神经网络进行说话人识别时,更加迫切地需要解决这一大人群识别问题。从总体上讲,基于人工神经网络法的说话人识别技术的研究目前还处于研究与实验阶段。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!