声源定位分离技术在机器人领域的应用

上传人:jin****ng 文档编号:175242443 上传时间:2022-12-19 格式:DOCX 页数:12 大小:21.73KB
收藏 版权申诉 举报 下载
声源定位分离技术在机器人领域的应用_第1页
第1页 / 共12页
声源定位分离技术在机器人领域的应用_第2页
第2页 / 共12页
声源定位分离技术在机器人领域的应用_第3页
第3页 / 共12页
资源描述:

《声源定位分离技术在机器人领域的应用》由会员分享,可在线阅读,更多相关《声源定位分离技术在机器人领域的应用(12页珍藏版)》请在装配图网上搜索。

1、声源定位分离技术在机器人领域的应用李从清;孙立新;戴士杰;武方 【摘 要】综述了声源定位分离技术在机器人领域研究的现状、关键技术、主要研 究问题以及发展趋势.对声音信息的获取、声源定位、声源分离、多传感器信息融 合等技术进行了介绍.多声源定位、语音分离、移动声源跟踪和多传感器信息融合 技术是机器人听觉感知技术未来发展趋势.期刊名称】电声技术年(卷),期】2010(034)001【总页数】5页(P49-53) 【关键词】 声源定位;声源分离;机器人【作 者】 李从清;孙立新;戴士杰;武方【作者单位】 河北工业大学机械工程学院,天津,300130;天津城市建设学院能源与 机械工程系,天津,3003

2、84;河北工业大学机械工程学院,天津,300130;河北工业大学 机械工程学院,天津,300130;哈尔滨工业大学机器人技术与系统国家重点实验室,黑 龙,哈尔滨,150080;河北工业大学机械工程学院,天津,300130【正文语种】 中 文【中图分类】 TB52;TN912;TP241 引言机器人作为面向复杂环境背景的智能个体,面临的是多模态信息的世界,对各种应 用环境它都应该具有相应的信息处理系统和信息获取方式,这样才能根据环境的变 化做出相应的决策。因此,为机器人装备各种外部传感器,使其具有更高的性能指 标和更宽的应用范围,是机器人向智能化发展的重要手段。机器人视觉技术极大地拓宽了机器人的

3、应用范围,提高了机器人的工作效率。但视 觉感知受视线和能见度的限制,在光线条件较差或者障碍物阻挡情况下,视觉感知 就会失效。在这种情况下,听觉系统作为人类感官的重要组成部分,为机器人感知 技术的研究提供了新的途径。声源定位分离技术正是通过对人耳听觉机制的模拟,利用声学传感装置接收声波, 再通过电子装置将声信号进行处理,从而实现对声源位置进行探测、识别,并对目 标进行定位及跟踪。20世纪80年代以来,声源定位技术以其隐蔽性强、适用性 高、低成本等独特优点,逐渐受到世界各国的重视,在军事和民用上都有十分广阔 的应用1,如在战场排雷、水下目标感知等危险环境作业中的应用。2 声源目标定位跟踪 由于声源

4、定位技术在机器人和通信等领域有着广泛的应用前景,近年来受到众多研 究者的关注。2004年,IEEE/RSJ关于智能机器人系统的国际会议首次将机器人听 觉作为1个研究主题,并从声源定位、声源分离、语音识别等角度进行讨论2。早在1995年,麻省理工学院的Irie等人最早在机器人上安装了简易的听觉系统3。由于受到硬件限制,所能实现的功能非常有限,但是这已经为将来机器人人 工听觉的研究作了开创性的工作。随后,1999年,日本会津大学的Jie Huang等人研发出1种装载有实时声源定位 系统和障碍物检测的声呐系统的移动机器人4。2000年以来,日本的一些大学和 研究院所也都在对机器人听觉进行研究5-6,

5、并采用双耳听觉系统拓宽机器人听 觉功能。如京都大学研发的SIG系列机器人在听觉方面就实现了越来越多的功能 7。最近,对机器人听觉的研究开始采用多个传声器8,如日本索尼公司研制的 QRIOSDR-4XII 型号的机器人安装了由 7 个传声器构成的听觉系统9。2006 年, 日本HONDA研究院开发研制了通过联合室内传声器阵列和嵌入机器人头部的传 声器阵来实时跟踪多声源的系统10。室内传声器阵列(IRMA )系统由嵌入墙内 的64通道(ch )传声器组成。在2维平面上,IRMA系统基于加权延时-累加波 束成形法定位多声源位置。嵌入机器人头部传声器阵列(REMA )系统用旋转台上 嵌入机器人头部的

6、8 个传声器来定位多声源方位角,其方位角通过粒子滤波来实 时跟踪。再者,还有采用听觉与视觉联合的定位系统。2003 年,意大利里雅斯特大学和帕 多瓦大学联合研制了智能声视联合多代理监视跟踪系统11,它由几个机器人组成, 都配有传声器阵列和视频摄像机。声音系统用于对脚步声之类的声源进行轨迹跟踪, 可作为博物馆等公共场所的人流记录系统,或监测在某作品前人们停留的时间长短。声音定位方法采用波束成形技术,在4个传声器阵列上运用神经网络,根据行者 的脚步声实施定位计算。2006 年,韩国理工学院智能机器人研究中心开发了 1 种 声视联合的机器人定位跟踪系统12,该系统包括1个声音活动探测的概率声音定 位

7、子系统和使用视觉摄像机的人脸跟踪子系统,它能联合这些子系统弥补话者位置 的偏差及能有效地拒绝从不希望方向进入的声音或噪声,声源定位采用波达延迟方 法。近几年,还不断出现对运动声目标进行连续跟踪的系统。2006 年,美国俄亥俄州 大学开发出双耳听觉定位跟踪多运动声源系统13,其在系统中采用了 1 种新的跟 踪算法,算法联合所有可靠频道间的概率以便在目标空间中产生似然函数。似然函 数描述了在1个特定的时间序列内的机动声源的方位角。最后利用隐马尔可夫(HMM )模型,连续地跟踪和自动地探测机动声源的数量。2007年,加拿大魁 北克的珊不勒凯大学机电学院开发研制了避障机器人14,系统采用由 8 个传声

8、器 组成的阵列,通过波束成形和粒子滤波技术跟踪多个声源,具有鲁棒的定位性能, 它是先前研究工作15-16的扩展。 此外,机器人听觉还应像人那样进行交流,能听懂人的话,这将涉及到语音识别和 语音分离等技术。2006 年6月,日本京都大学奥野教授研制出“人耳”机器人, SIG-II耳朵是用硅树脂制成的。当3个人同时讲话时,它能够辨别出各个人的声音, 而且它还能用2个电荷耦合装置(CCD )的眼睛注视发出声音的方向。这是日本 京都大学多年来在机器人听觉研究的最佳成果。中国从事这一领域研究的大学和研究机构也开始出现,但是大部分高校和研究院所 都是从信号处理的角度对声源定位技术进行研究,如清华大学、哈尔

9、滨工业大学和 电子科技大学等。3 关键技术 机器人听觉定位跟踪研究的关键技术包括:声音信息的获取、声源定位、声源分离 和多传感器信息融合等。3.1 声音信息的获取 通常,声音信息靠传声器获取。人的耳朵可实现对声音信息的跟踪、定位和识别, 它的原理是通过两耳间存在的时间差、声级差来实现的。仿造人耳的听觉系统,可 将多个传声器组成的阵列作为机器人的“双耳”对声音信息进行处理。传声器阵列 是指由多个传声器构成一定几何形状而组成的阵列,它具有很强的空间选择性,同 时还可在一定范围内实现声源的自适应检测定位及跟踪。阵列的构建包括阵元间距、 阵元个数和采用的传声器类型。阵列的几何结构包括直线阵、平面阵和三

10、维阵。均 匀直线阵列结构简单,但不适用于全向定位。平面阵可用于全向定位,性价比高, 但不太适用于近场定位。近场模型和远场模型最主要的区别在于是否考虑传声器阵 列各阵元因接收信号幅度衰减的不同所带来的影响。三维阵列定位更为精确,但阵 元数目较多,计算量相对较大。3.2 声源定位声源定位技术通过传声器拾取语音信号,并采用数字信号处理技术对其进行分析和 处理,继而确定和跟踪声源的空间位置。常用的定位方法有:基于阵列信号处理方 法和基于人耳听觉机理方法。基于阵列信号处理的定位方法有最大输出功率的可控波束形成方法、高分辨率谱估 计的定位方法和时延估计方法。其中时延估计法计算量较小,利于机器人实时处理,

11、其定位方法分为2个步骤17:先进行声达时间差估计,并从中获取传声器阵列中 阵元间的声延迟(即估计时延);再利用获取的声达时间差,结合已知的传声器阵 列的空间位置进一步定出声源的位置(即空间搜索)。估计时延通常采用广义互相关(GCC )时延估计法、倒谱预滤波的时延估计法、 互功率谱相位时延估计法、结合语音特性的基音加权时延估计法、基于自适应最小 均方的自适应时延估计、基于空间分解的时延估计方法以及基于声学传递函数比的 时延估计等18。空间搜索算法主要有基于目标函数搜索的算法、基于空间几何的 算法和基于线性内插值的算法。基于人耳听觉机理的定位线索主要有双耳时间差(ITD )和双耳声级差(ILD)。

12、 考虑到头部的影响,当频率约小于1 500 Hz低频时,两耳时间差是方向定位的主 要因素;频率大于1500-4 000 Hz时,双耳时间差和双耳声级差对方向定位共 同起作用;频率大于4 000-5 000 Hz的高频情况下,双耳声级差是方向定位的 主要因素。双耳时间差的计算方法有许多种19,常用的方法有双耳声压相延时差 和相关法定义的双耳时间差。对于单声源定位,采用上述方法一般计算的是全频带 范围的“平均”ITD,它与频率无关。但是对于多声源定位,采用上述方法就显得 无能为力了。为了解决多声源定位问题,1948年Jeffress提出了“巧合假 说”20,基于此假说,1983年Lyon是较早地将

13、人耳听觉机制运用到声源定位 21 , 1993年Bodden实施了比较系统的多声源定位研究22。3.3 声源分离选择性增强感兴趣的声音信号并同时压制噪声和干扰涉及到关键技术声源分离问题, 即在多个混合声音信号中,选择并放大某个或几个声源。当前声源分离技术主要有 计算听觉场景分析和盲源分离技术。计算听觉场景分析是利用计算机技术将人类听觉对声音的处理过程(听觉场景分析) 建模,使计算机具备从混合声音中分离各物理声源并做出合理解释的能力。综观语 音分离的各种方法,可将计算听觉场景分析概括为三大阶段:第一个阶段是将达到 人耳的混合声音信号分解为1组感官元素(sensory elements ),称为分

14、解(segmentation )。第二个阶段是将这些感官元素按照声源不同进行分组,形成 可对某个声源信号进行感知的听觉流(auditory stream ) ”,这一阶段称为组 合(grouping)。这一阶段是计算听觉场景分析的难点。第三个阶段就是重新合 成。即将来自同一个声源的感官元素重新合成,重建该源声音信号。这一阶段称为 合成(integration )。计算听觉场景分析系统可分为两大类:一类是数据驱动型( Data-driven)CASA, 它的特点是信息由低级向高级单向流动,这种方法符合传统的信息处理过程;另一 类是图式驱动型(Schema-driven)CASA,特点是信息的流动

15、是双向的,它更接 近于人类对听觉感知的机制。盲源分离(BSS )是指在不知道源信号和传输通道的参数的情况下,根据输入源信 号的统计特性,仅由观测信号恢复出源信号各个独立成分的过程。盲源分离的研究 是到20世纪80年代末才真正发展起来,它的另一个名称是独立分量分析(ICA),意思是提取混合信号中的独立分量。1986年法国学者Jeanny Herault 和Christian Jutten的一篇开创性的研究报告,揭开了盲源分离研究的新的一章 23。3.4 多传感器信息融合 在移动过程中,机器人不断接收信号源的声波,并根据声波的变化随时调整运动的 方向,最终到达目标点。但在实际应用中,机器人基于听觉

16、的声源定位精度易受环 境噪声的影响,鲁棒性较差。人类是通过眼、鼻、耳、手等多感知方式来共同辨别 目标的。同样,机器人可通过仿生学的方法,利用音频听觉、摄像头视觉和超声装 置等多个传感器信息的综合来提高听觉定位的精度和鲁棒性。机器人定位较为常用 的融合方式是“视-听”融合。在其融合的过程中又分为两种机制。第一种机制: 首先听觉、视觉传感器根据各自的信息进行独立决策,然后再将各决策结果进行融 合。这种方法的特点是融合过程简单,但容易丢失有用信息。第二种机制:首先将 听觉、视觉传感器信息按照一定准则进行融合,再依据融合后的信息进行决策。这 种方法定位更为准确。目前主要采用的还有 D-S 证据理论、卡

17、尔曼滤波、人工神 经网络、模糊推理等24。4 主要问题 声源定位分离中两大难点问题是初始声音信息处理的噪声和回响。由于初始声音信 号中背景噪声和回响等干扰,影响了声源定位的精度,因此去噪问题十分重要。4.1 噪声 语音信号在实际环境中常受到背景噪声的干扰,背景噪声通常是加性的,即所采集 的信号是真实的语音信号与背景噪声的和。背景噪声源很多,如:办公室中的打字 机、打印机的工作声以及计算机中磁盘驱动器、风扇等设备的工作声。这些噪声源 的特性是平稳的或在频域上变化缓慢的;还有是高度非平稳的,如门窗的开关声。 如果噪声源信号的特性可以被单独测量,那么声音信息获取的准确性就会大大提高 较为常用的去噪方

18、法有:谱减方法、维纳滤波、小波变换去噪法、广义互相关时延 估计法和互功率谱相位时延估计法等方法。谱减方法是最简单的去除加性噪声的方 法,其基本思想最早是由Boll25提出的。该法进一步分为线性与非线性谱减法和 概率谱减法。线性与非线性谱减法都是通过使用非语音段的噪声样本来估计噪声模 板,然后从混噪语音信号中减去该噪声模板或其过估计值来达到去噪声的目的。但 是,当混噪语音信号中的噪声大小不同于噪声模板时,以及噪声模板大小调整不适 合噪声类型变化的场合时,这种方法并不能有效地去除噪声。鉴于此,发展了概率 谱方法。概率谱方法充分考虑了环境中各种可能类型的噪声特征,并且依据各种噪 声类型出现的概率来进

19、行相应的谱减。但是需要先验知识,计算量比较大。维纳滤 波是一种滤波器,让含噪信号通过这种滤波器一滤除噪声。小波变换去噪法是根据 噪声与信号在各尺度上的小波谱具有不同表现的特点,将噪声小波谱占主导地位的 那些尺度上的噪声小波谱分量去掉,保留下来的小波谱基本上就是原来信号的小波 谱,然后重构出原信号。上述这些方法都可作为定位前的预处理去噪。广义互相关法对信号和噪声进行白化处理,增强信号中信噪比较高的频率成分,对 背景噪声和回声都起到一定的抑制作用。缺点是比较依赖于输入信噪比和先验知识 的掌握。互功率谱相位法对两路输入信号进行了白化处理,从而锐化了相关函数的 峰值,该算法具有一定抗噪声和抗混响的能力

20、。4.2 回响在室内等存在反射边界的封闭空间中,除了声源产生的直达声外,还存在边界的反 射声。因此,在声源定位时不得不考虑回响的影响。心理学研究表明,人类听觉有 能力对回声和原声进行一定程度上的区分,这是人类的后天适应,而不是本能的。 这种适应可以使人在有回响的环境下仍能对声源目标进行有效定位26-28。因为 在原声到达后,再经过一段延时后回响才第一次到达并且开始干扰。在这短暂时间 里的信号是无回响的信号部分,它可被用来进行无回响干扰的定位计算。图1为 回响模型,利用回响的端点效应,或被称为优先效应。优先效应可对回声进行较好 的处理。从图1 中可看出,原声到达后,混响经一段时延才第一次到达并且

21、开始 干扰。在这个短暂时间,信号不包含回响部分,可用来进行无回响干扰的定位计算 图1 回响模型示意图5 发展趋势机器人听觉定位技术已经有了很大进展,但是还远远没有达到实用的要求。未来发 展趋势为:(1)声源定位的实时性。实时性是机器人听觉定位实用化的基本要求, 降低定位方法的计算量、提高定位实时性是机器人听觉定位研究的主要任务之一。(2)多声源的定位分离。当声源目标多于一个的时候,机器人听觉系统能够识别 每一个目标声源及其位置,这是当前机器人听觉定位研究的热点。( 3)语音分离 在声源定位的基础上,机器人听觉还能实现语音分离和语音识别,从而真正实现人 机互动。(4)移动声源跟踪。除了能够定位静

22、止的声源外,还能够跟踪移动声源。因此,跟踪技术也将是未来研究的重要内容。(5)多传感器信息融合技术。随着 机器人外部传感器的增多,多传感器信息融合技术越来越突显重要。所以,如果选取足够长的MLS阶数,那么这种误差的影响就会变得非常小。稳态 噪声如何影响MLS测量并没有系统的研究,然而全面地了解稳态噪声是如何引起 MLS测量误差以及误差的特点对判断测量结果的精确程度具有非常实际的意义。 参考文献1 靳莹,杨润泽声测定位技术的现状研究几电声技术,2007,31(2): 4-8.2 OKUNO H G,OGATA T,KOMATANI K,et al.Computational auditory s

23、cene analysis and its application to robot auditionJ.Informatics Research for Development of Knowledge Society Infrastructure , 2007, 29:69-76.3 IRIE R.Robust sound localization : an application of an auditory perception system for a humanoid robotD.Boston:MIT, 1995.4 JIE H.A model-based sound local

24、ization system and its application torobot navigationJ.Robotics and Autonomous Systems , 1999(27):199-209.5 YAMAMOTO S,NAKADAI K,TSUJINO H,et al.Assessment of general applicability of robot audition system by rec ognizing three simultaneous speechesC/Proceedings of IEEE/RSJ International Conference

25、on Intelligent Robots and Systems. S.l.:IEEE Press,2004:2111-2116.6 NAKADAI K,OKUNO H G,KITANO H.Real-time sound source localization and separation for robot auditionC/Proceedings of IEEE International Conference on Spoken Language Processing.S.l. :IEEE Press, 2002:193-196.7 YAMAMOTO S,NAKADAI K,TSU

26、JINO H,et al.Improvement of robot audition by interfacing sound source separation and automatic speech recognition with missing feature theoryC/Proceedings of IEEE International Conference on Robotics and Automation.S.l.:IEEE Press, 2004:1517-1523.8 VALIN J,MICHAUD F,ROUAT J.Robust localization and

27、tracking of simultaneous moving sound sources using beamforming and particle filteringJ.Robotics and Autonomous Systems,2007,55:216-228.9 FUJITA M,KUROKI Y,ISHIDA T,et al.Autonomous behavior control architecture of entertainment humanoid robot S D R-4 X C/Proceedings of IEEE/RSJ International Confer

28、ence.S.l.:IEEE Press,2003,1:960-967.10 KAZUHIRO N,HIROFUMI N,MASAMITSU M.Real-time tracking of multiple sound sources by integration of in-room and robot-embedded microphone arraysC/Proceedings Intelligent Robots and Systems,2006 IEEE/RSJ International Conference.Beijing:IEEE Press,2006,852-859.11 M

29、UMOLO E,NOLICH M,MENEGATTI E, et al.A multi agent system for audio-video tracking of a walking person in a structured environmentC/Proceedings of Workshop on Multiagent Robotic Systems trends and industrial applications.Padua:IEEE Press,2003.12 CHOI J S,KIM M,KIM H D.Probabilistic speaker localizati

30、on in noisy environments by audio-visual integrationC/Proceedings of the 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing:IEEE Press,2006,4704-4709.13 ROMAN N,WANG D L.Binaural tracking of multiple moving sourcesR.Columbus:Department of Computer Science and Engineerin

31、g, The Ohio State University,2006.14 VALIN J M,MICHAUD F,ROUAT J.Robust localization and tracking of simultaneous moving sound sources using beamforming and particle filteringJ.Robotics and Autonomous Systems Journal(Elsevier).2007, 55(3): 216-228.15 VALIN J M,MICHAUD F,HADJOU B,et al.Localization o

32、f simultaneous moving sound sources for mobile robot using a frequencydomain steered beamformer approachC/Proceedings of IEEE International Conference on Robotics and Automation (ICRA). S.l.: IEEE Press,2004:1033-1038.16 VALIN J M,MICHAUD F.Robust sound source localization using a microphone array o

33、n a mobile robotC/Proceedings of 2003 IEEE/RSJ.S.l.: IEEE Press,2003,2:1228-1233.17 林志斌,徐柏龄基于传声器阵列的声源定位J.电声技术,2004 ( 5 ):19-24.18 崔玮玮,曹志刚,魏建强.声源定位中的时延估计技术J.数据采集与处理, 2007,22(1): 90-99.19 谢菠荪头相关传输函数与虚拟听觉M.北京:国防工业出版社.2008.20 JEFFRESS L A.A place theory of sound localizationJ.J.Comp.Physiol.Psych,1948,4

34、1:35-39.21 LYON R F.A computational model of biunaural localization and separationC/Proceedings of the International Conference on Acoustics, Speech and Signal Processing.S.1:IEEE Press,1983,1148-1151.22 BODDEN M.Modeling human sound-source localization and the cocktail party effectJ.Acta Acoustic,1

35、993,1:43-55.23 李从清,孙立新,龙东,等语音分离技术的研究现状与展望J.声学技术, 2008,27(5):779-787.24 李磊,叶涛,谭民移动机器人技术研究现状与未来J.机器人,2002 , 24 (5):475-480.25 BOLL S.Suppression of acoustic noise in speech using spectral subtractionJ. IEEE Trans. on Acoustics , Speech , and Signal Processing, 1979 , 27(2):841-844.26 HUANG J.Tadawute supaongprapa.mobile robot and sound localizationJ.IEEE Trans.on Acoust Speech Signal processing,1999,19: 220-225.27 BLAUERT J.Spatial hearingM.London :MIT Press,1983.28 WALLACH H,NEWMAN E B,ROSENZWEIG M R.The precedence effect in sound localizationJ.J.Psychol.Am.,1949,62(3):315-336.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!