基于kinect的口语手语实时翻译系统—项目申报书

上传人:仙*** 文档编号:79975307 上传时间:2022-04-24 格式:DOC 页数:27 大小:1.32MB
收藏 版权申诉 举报 下载
基于kinect的口语手语实时翻译系统—项目申报书_第1页
第1页 / 共27页
基于kinect的口语手语实时翻译系统—项目申报书_第2页
第2页 / 共27页
基于kinect的口语手语实时翻译系统—项目申报书_第3页
第3页 / 共27页
资源描述:

《基于kinect的口语手语实时翻译系统—项目申报书》由会员分享,可在线阅读,更多相关《基于kinect的口语手语实时翻译系统—项目申报书(27页珍藏版)》请在装配图网上搜索。

1、附件1:序号: 编码: 第八届“挑战杯”郑州大学大学生课外学术科技作品竞赛作 品 申 报 书 作品名称: 基于Kinect的口语手语实时翻译系统 院系名称: 物 理 工 程 学 院 个人申报者姓名(集 体 名 称): ZZU-SPARK 类别: 自然科学类学术论文 哲学社会科学类社会调查报告和学术论文 科技制作 小发明创造说 明1申报者应在认真阅读此说明各项内容后按要求详细填写。2申报者在填写申报作品情况时只需根据个人项目或集体项目填写A1或A2表,根据作品类别(自然科学类学术论文、哲学社会科学类社会调查报告和学术论文、科技制作和小发明创造)分别填写B1、B2或B3表。所有申报者可根据情况填写

2、C表。3表内项目填写时一律打印或用钢笔填写(字迹端正),此申报书可复制。4序号和编码由第八届“挑战杯” 郑州大学大学生课外学术科技作品竞赛组委会填写。5学术论文、社会调查报告及所附的有关材料必须是中文(若是外文,请附中文本),请以4号仿宋体打印在A4纸上,附于申报书后;学术论文及有关材料在8000字以内,社会调查报告在15000字以内(文章版面尺寸1625cm左右)。6科技制作、小发明创造类作品要有1000字以内的作品说明,并附相关的研究报告、图表、曲线、试验数据、原理结构图、外观图(照片)、鉴定证书和应用证书等,打印或粘贴到申报书后。7各院系通过初评的作品各一式两份在规定时间内报第八届“挑战

3、杯” 郑州大学竞赛指导委员会办公室(校团委综合办公室)。8作品申报书由各院(系)统一报送,同时报送电子版。 A2申报者情况(集体项目)说明:1必须由申报者本人按要求填写;2申报者代表必须是作者中学历最高者,其余作者按学历高低排列;3本表中的学籍管理部门签章视为申报者情况的确认。申报者情况姓 名王振愿性别男出生年月1993.07学 校郑州大学专业电子信息科学与技术现学历本科年级大三学制四年入学时间2012.09作品全称基于Kinect的口语手语实时翻译系统毕业论文题 目无通讯地址郑州大学物理工程学院2012级电信二班邮政编码450001办公电话15538399005常 住 地通讯地址郑州大学物理

4、工程学院2012级电信二班邮政编码450001手 机15538399005其他作者情况姓 名性别年龄学历所在单位张 旋男20本科郑州大学物理工程学院李铭涵女20本科郑州大学物理工程学院郭 桐男20本科郑州大学物理工程学院任冠兰女20本科郑州大学物理工程学院程巨磊男21本科郑州大学物理工程学院资格认定院系学籍管理部门意 见以上作者是否为2013年7月1日前正式注册在校的全日制非成人教育、非在职的的各类高等院校中国籍学生(含专科生、本科生和研究生)。是 否(部门签章) 年 月 日院系负责人或导师意 见本作品是否为课外学术科技或社会实践活动成果。 是 否 负责人签名: 年 月 日B3申报作品情况(科

5、技制作和小发明创造)说明:1必须由申报者本人填写; 2本表必须附有研究报告,并提供图表、曲线、试验数据、原理结构图、外观图(照片),也可附鉴定证书和应用证书; 3作品分类请按照作品发明点或创新点所在类别填报。作品全称基于kinect的口语手语实时翻译系统作品分类(B.)A机械与控制(包括机械、仪器仪表、自动化控制、工程、交通、建筑等) B信息技术 (包括计算机、电信、通讯、电子等) C数 理 (包括数学、物理、地球与空间科学等)D生命科学 (包括生物、农学、药学、医学、健康、卫生、食品等)E能源化工 (包括能源、材料、石油、化学、化工、生态、环保等)作品设计、发明的目的和基本思路设计发明目的:

6、世界各地有3.6亿的听力障碍人士,其中来自中国的听力障碍患者人数将近2100万。手语是聋哑人士的主要沟通工具,它是利用手部和身体的动作来传达信息。由于大部分普通人不懂得手语,使聋哑人士与普通人的沟通十分困难。为了解决这个问题,我们设计实现了一个将手语动作翻译成文字和语音的翻译器,使计算机能够理解人做出的手语,并将手语翻译成为普通人能够理解的文本或语言,为聋哑人和普通人之间的交流提供方便,以达到减少聋哑人与普通人沟通障碍的目的。此外,将手语用到人机交互中还有着巨大的学术价值和广阔的市场应用价值。基本思路:这个系统通过计算机在Visual Studio 2012平台上利用C#语言编程,程序可以完成

7、手语的录入及识别、语音录入、语音识别并转换成文字、文字输入、视频调用等。这个系统的基本思路包括一个翻译模式和一个沟通模式。翻译模式是为了展示单个词语是如何从手语形式翻译成书面形式,其中,手势动作信息采集是通过Kinect传感器对动作信息的获取技术实现,动作信息转化为编码、再将编码转化为汉字信息可以通过运用c#语言编程实现。在沟通模式中,系统使用虚拟形象来代表听力正常者打手语,这些虚拟动画主要由MikuMikuDance软件生成,这些虚拟动画就是听力正常者的代理人。最终,将这两个模式汇总在一起,做成一个功能丰富的系统。创新点、技术关键和主要技术指标创新点: 1.运行或开发能够识别人类自然动作、手

8、语和语音指令 的交互式应用程序所用到的设备为微软最先进的第二 代Kinect for Windows感应器(黑色)2.改进的DTW算法结构3.通过Microsoft Speech API实现语音识别4.文本提取匹配技术5.Avi视频无损压缩技术6.精致美观的虚拟人物动画7.简单大方的应用程序界面 8.丰富的动画数据库技术关键:1.深度图像采集处理技术2.改进的DTW算法3.语音识别技术4.文本提取匹配技术5.虚拟人物动画制作技术6.应用程序界面设计7.Avi视频无损压缩技术主要技术指标:软件语言 中 文软件性质 国内软件 软件大小203.5MB软件分类应用软件 运行环境Windows 8Win

9、dows 8.1识别精度96%硬件配置64位(x64)架构处理器i7 2.5-GHz及以上处理器内置USB 3.0总线4 GB RAMDX11图形适配器第二代Kinect For Windows感应器(黑色)作品的科学性先进性(必须说明与现有技术相比、该作品是否具有突出的实质性技术特点和显著进步。请提供技术性分析说明和参考文献资料)科学性:1.第二代Kinect感应器使用:本系统采用微软公司最新 的Kinect传感器取代原始的摄像头,获取人体骨骼的 三维坐标作为原始数据,配合算法,完成手语识别。 Kinect告别了手套识别的历史,使识别更方便,更自然。 Kinect传感器靠发射红外获取人体骨骼

10、坐标,因此克服 了光照强度对手语识别的影响,降低了算法的复杂度,提高了手语识别的稳定性和可靠性。2. 手语识别数据处理技术:本系统首先初步建立一个坐标 系,然后通过原始坐标的转换,生成了手语模板,实现 了手语的数字化与序列化。这样,可以很方便的把手语 对应的坐标录入,形成以数字的形式存储在文件中的手语模板,实现了手语的模板化,为手语识别做了充分的准备。3. 改进的DTW识别算法:该算法采用动态规划的思想,解 决了识别中语音模板长度与待测语音长度不一样的问题。同理,在手语识别中,也会存在模板序列长度和待测序列长度不一样的问题,而改进的DTW算法很好地解决了这个问题。4. 3D人物动画制作技术:本

11、系统人物动画主要由 MikuMikuDance7.39制作,生成的动画通过Avi解码器 生成质量高的Avi动画,并且人物动作设计精细,人物 形象可爱生动,画面清晰,方便与聋哑人的沟通。5. Avi视频无损压缩技术:本系统在正常运行时要首先加 载已有的手语数据库,如果手语数据库文件太大,会导致程序崩溃,所以我们使用了Avi视频无损压缩技术,通过对视频文件解码,再用Xvid编码的形式对原有手语文件进行压缩,使一个手语视频占用的空间不大于1MB。6. 系统整合技术:通过计算机在Visual Studio 2012平台上利用C#语言编程,程序可以完成手语的录入及识别、语音识别并转换成文字、文字输入、视

12、频调用等功能。先进性:1.与之前的手语识别技术相比,我们的系统利用Kinect 传感器,构造了一个体感系统,将语音与手语识别自然地转换,解决聋哑人与普通人交流困难的问题。2.与之前的人机交互技术相比,我们的系统由计算机负担 手语口语实时交互技术的绝大部分工作,为使用者提供 了良好的人机交互系统环境,简单方便,无需学习,即可使用。3.与之前的手语识别技术相比,之前的手语识别多用数据手套传输收集数据,十分不方便,并且成本很高,而我们的项目成本低,便于各种环境使用,利于推广。4.与之前的手语识别技术相比,我们的系统采用最先进的 Kinect设备第二代Kinect For Windows感应器, 其传

13、感器对图像的识别、语音阵列对语音的捕捉都十分 准确。灵敏度高,识别速率快。5.与之前的手语识别系统相比,我们的系统设计了一种直 观且便于人操作的界面。6.与之前各种手语识别系统的输出动画相比,我们所做的 手语动画制作精美、人物可爱、简洁大方、清楚明了、 便于推广和使用。作品在何时、何地、何种机构举行的评审、鉴定、评比、展示等活动中获奖及鉴定结果无作品所处阶 段(B.)A实验室阶段 B中试阶段 C生产阶段D (自填)技术转让方 式与厂家合作作品可展示的 形 式实物、产品 模型 图纸 磁盘 现场演示 图片 录像 样品使用说明及该作品的技术特点和优势,提供该作品的适应范围及推广前景的技术性说明及市场

14、分析和经济效益预测使用说明:(一)准备阶段首先在电脑上安装完成本系统应用程序,调试好所有所需硬件,打开应用程序,出现下图所示界面。(二)手语的录入首先单击手语调试按钮,进入手语调试界面,然后单击数据库按钮旁的箭头,会出现下拉列表,这时使用者可以选择想要录入的手语词汇,单击按钮,状态提示框中将会对您进行的操作进行提示,待您进入Kinect传感器视野的合适位置后,状态提示框将提示您“等待3秒,3秒后,您便可录入该手语词汇”。请注意:当前设定一秒为30帧,一个动作为32帧,请您录满32帧,再回到初始动作(双手在身体两侧、胯骨以下,数字帧数提示为0)。当您录制好一个动作之后,此时可以对刚刚录入的动作进

15、行测试,若能正常识别,则识别结果将在手语识别结果输出窗口中显示。若要对该动作重新录入,请重复之前步骤。若该手语词汇录入成功,可继续录入其他词汇,步骤与之前的步骤类似。当录入完所有的手语词汇后单击保存按钮,即可将该套手语词汇数据库保存。当再一次使用该系统时,请首先单击载入手语按钮,载入已经录入的手语词汇数据库。之后,该软件就可对载入的数据库中所包含的手语词汇进行识别。(三)日常使用时的翻译模式使用方法 日常使用该系统进行手语识别时,请首先单击正常使用按钮进入日常使用界面(如下图)。当传感器视野窗口中出现做手语者的实时图像时,便可进行手语识别,手语识别出的结果将于手语识别结果输出窗口中显示。(四)

16、日常使用时的沟通模式使用方法日常使用该系统进行文字/语音识别时,请首先单击正常使用按钮进入日常使用界面。若使用语音识别,选择文字/语音输入窗口中的,然后按住说话,语音识别结果将于文字/语音输入窗口中显示,经过计算机处理后对应词语的手语动画将于手语动画播放窗口中播放出来。若使用文字识别,选择文字/语音输入窗口中的然后在文字/语音输入窗口中输入词汇即可,经计算机处理之后,对应词语的手语动画将于手语动画播放窗口中播放。(五)常用环境下的常用语使用方法为了方便聋哑人与普通人的交流,我们制作了一系列快捷用语以节省对话双方的交流时间。本系统内置了四种环境下的常用语,包括,商场、医院、餐厅、银行,共四个场景

17、。使用该功能时,首先,找到常用语快捷界面窗口,单击常用语快捷界面按钮在常用语快捷界面中选择商场、医院、餐厅、银行四种环境,并选择该场景下的常用语,选中后,该常用语句对应的手语动画将于手语动画播放窗口中播放。注:在录入手语词汇时,等待3秒后,若双手或单只手未离开身体两侧,即数字帧数提示为0,则该手语词汇未被录入。在进行语音识别时,请在每个词语输入后进行一定的停顿,进行文字识别时,请在输入每个词汇后加一个空格,并且等待手势词语动画演示结束再进行下一个词语输入,否则手语词汇动画将播放不完整。技术特点和优势:1.功能强大、操作简便2.识别精度高3.智能化程度高4.算法完善5.系统人性化范围和推广:“基

18、于Kinect的口语手语实时翻译系统”是基于Kinect传感器的具有手语的录入及识别、语音识别并转换成文字、文字输入、视频调用等功能于一体的全方位多功能为聋哑人服务的口语手语实时翻译系统。系统主要采用改进的DTW算法、手语识别技术、文本提取匹配技术、语音识别技术、人物动画制作技术、Avi视频无损压缩技术等。本系统克服现有技术的不足,自动化程度高、价格成本低廉、性价比高,识别精度高,更方便实用。本系统可广泛应用于医院、银行、机场、餐馆等公共场所。此外,将本系统用到人机交互中还有着巨大的学术价值和广阔的市场应用价值。我们希望通过对这一项目的深入研究,为实现更加快捷、智能的人机交互打下基础,同时,将

19、Kinect技术跨平台使用,则可以应用于包括平板电脑、PC等在内的各种带有深度图像采集处理技术和人机交互界面的智能设备(比如说智能家居),应用范围显著扩大,给人们的社会生活带来极大便利。经济效益预测和市场分析: “基于Kinect的口语手语实时翻译系统”有良好的发展前景和巨大的经济效益,该系统可以很好地实现聋哑人与普通人的沟通交流,可以为聋哑人和普通人提供极大的便利,并且本系统功能丰富,简单易学。“基于Kinect的口语手语实时翻译系统”可以被广泛应用于医院、机场、餐厅、商场、超市、警察局、聋哑人学校等公共场所,投入使用率高,便于社会进步,综上所述,“基于Kinect的口语手语实时翻译系统”具

20、有很好的经济效益。另外,“基于Kinect的口语手语实时翻译系统”所服务的人口基数众多。世界各地有3.6亿的听力障碍人士,其中来自中国的听力障碍患者人数将近2100万。手语是聋哑人士的主要沟通工具,它是利用手部和身体的动作来传达意义。但是聋哑人士与普通人的沟通却十分困难,这个沟通障碍源于大部分人不懂得手语。手语识别技术发展到今天,手语作为人们一种重要的交流工具,包含了丰富的内容,人与人之间可以方便、直观、自然的相互理解和传递信息。近年来,随着计算机技术的发展和广泛应用,人机交互技术也因此得到了快速的发展和进步,成为了计算机视觉的一个研究热点问题。在国外,手语识别的研究开始于1982年,主要是对

21、静态手语、手指字母、手势和连续语句识别的研究和开发,以Poizner和Shantz研究程序,用来识别美国手语。1983年,数据手套的发明专利最先由Grimes在AT&T取得,并且可以实现部分简单手势的识别。1992年,Fukumoto等研制的Finger-Pointer系统,实验者不需要佩带任何辅助工具,该系统实现了一些简单的手形和手指方向的识别。1993年,Hinton和Fels研制出通过Polhemus型跟踪设备和Mark 11型数据手套,并且使用神经网络进行手势的聚类。1996年,Weng和Cui对区分性和表达性两种特征进行分析研究,将手形图像和肩胸区域提取出来,通过模板匹配法分类,得到

22、93%的识别率。2001年,Bauer等首次使用K均值算法对德国手语进行识别,由12个手势组成一个语句,识别率达80.8%。2004年,Hernandez通过模板匹配法,对200个美国手语词进行识别,识别率高达95%。2007年,Oya等使用手语和其他身体动作信息,识别美国手语,识别率超过了81%。微软、IBM 等公司也一直致力于手势识别技术的研究。最近的研究成果有:2010 年 8 月,玛雅与 teory 公司合作研发出了一种手势识别系统,该系统通过识别摄像头采集的用户手部动作来操作电视机;2010 年 5 月,麻省理工大学的计算机人工智能实验室利用让实验者带上涂有十种颜色的手套成功的解决了

23、识别系统中的手势分割问题,但是由于仍然需要佩戴手套,因此它和真正意义上的自然人机交互还有差别,离实际应用仍有一段距离。在我国, 863 项目“多功能感知机”的开发研究(1997-1999)首次涉及到手势识别技术。该项目把 ANN-HMM 的混合方法应用于含有 18 个 Cyber Glove 型号数据手套的中国手语识别系统中,能够使孤立词的识别率高达 90%,简单语句的识别率达到 92%。哈工大的吴江琴和高文等组织的团队,主要针对中国手语中单个词汇和简单的语句来识别,先后提出了:使用HMM和人工神经网络相结合的算法训练手势,识别率为94%和90%;使用动态高斯混合模型对单个的手语词汇识别,识别

24、率达98.2%;以及研发出了中国手语识别系统,使识别词汇数量和识别率显著提高。2000年,任海兵等开发了单个动态手势与连续动态序列的手语识别系统,识别了 12个手势样本,识别率约97%。2000 年,在国际上首次实现了 500 词以上的连续中国手语识别系统。与此同时,国内相关的学术交流也日益增加,2003、2004 年成功举行的两届“和谐人机交互技术”高级研讨班标志着手势识别研究的逐渐升温。2004 年,高文等利用两个 Cyber Glove 型号的数据手套以及三个位置跟踪器来采集手势,运用 DGMM(Dynamic Gaussian Mixture Model)的识别方法能够以 98.2%的

25、识别率识别中国手势字典中的 274 个词条。清华大学祝远新、徐光祐等又提出了一种基于视觉的动态孤立手势识别技术,该技术对 12 种手势的识别率超过 90%;对于连续动态手势的识别,他们提出的识别技术对 12 种手势的平均识别率高达 97%。该技术融合手势运动信息和皮肤颜色信息来从复杂背景下分割出手势,利用动态手势的时空表现建造手势模型,最后,将动态时空规整算法作为识别分类器。 2006年,张良国等使用混合序列捆绑的隐马尔科夫模型来识别单个的手语词汇,识别率达92.5%。2008年,中科院提出了动态建模方法,综合识别率达88.3%。“基于Kinect的口语手语实时翻译系统”具有广阔的市场前景,经

26、过上述分析,我们的系统可以很好地克服前人技术上的不足,可以很好地实现人机交互技术,并且我们的手语数据库极为丰富,基本包括了手语中的所有词汇,本系统更具有市场优势。专利申报情 况提出专利申报 申报号 申报日期 年 月 日已获专利权批准 批准号 批准日期 年 月 日 未提出专利申请C.当前国内外同类课题研究水平概述 说明:1.申报者可根据作品类别和情况填写; 2.填写此栏有助于评审。手语识别在人机交互中的重要性近年来,随着计算机技术的发展和广泛应用,人机交互技术也得到了快速的发展和进步,成为了计算机视觉的一个研究热点问题。如今的人机交互方式大多数是通过键盘和鼠标等比较单一的输入工具,使用人体语言的

27、输入方式与它们相比则要快捷方便的多。因此,使用自然语言与人体语言作为输入方式,加强计算机对人类语言和动作的理解,在人机互动领域有积极的意义和应用价值。手语识别的主要研究目的就是使计算机能够理解人给出的手语,并将手语翻译成为人能够理解的文本或语言等方式输出,进而为聋哑人和健全人之间的交流提供方便,或者为人体语言的凌空操控提供支持。手语识别涉及到许多研究领域,如机器人学、概率统计学、模式识别学、计算语言学等,因此,将手语用到人机交互中,有着巨大的学术价值和广阔的市场应用价值。国外手语识别发展状况在国外,手语识别的研究开始于1982年,主要是对静态手语、手指字母、手势和连续语句识别的研究和开发,以P

28、oizner和Shantz研究程序,用来识别美国手语。之后,一些科研院所和世界知名的高校,包括相关领域的大公司也开始逐渐对手语识别技术进行研究和探索。1983年,数据手套的发明专利最先由Grimes在AT&T取得,并且可以实现部分简单手势的识别。1992年,Fukumoto等研制的Finger-Pointer系统,实验者不需要佩带任何辅助工具,该系统实现了一些简单的手形和手指方向的识别。1993年,Hinton和Fels研制出通过Polhemus型跟踪设备和Mark 11型数据手套,并且使用神经网络进行手势的聚类。1996年,Weng和Cui对区分性和表达性两种特征进行分析研究,将手形图像和肩

29、胸区域提取出来,通过模板匹配法分类,得到93%的识别率。2001年,Bauer等首次使用K均值算法对德国手语进行识别,由12个手势组成一个语句,识别率为80.8%。2004年,Hernandez通过模板匹配法,对200个美国手语词进行识别,识别率高达95%。2007年,Oya等使用手语和其他身体动作信息,识别美国手语,识别率超过了81%。目前国际上致力于手势识别研究的大学及机构有美国的佐治亚理工学院、卡内基梅隆大学(CMU)、伊利诺伊斯大学(UlUC)、加州大学圣巴巴拉分校(UCSB)、MIT 以及英国的剑桥大学东芝实验室等,此外,微软、IBM 等公司也一直致力于手势识别技术的研究。最近的研究

30、成果有:2010 年 8 月,玛雅与 Teory 公司合作研发出了一种手势识别系统,该系统通过识别摄像头采集的用户手部动作来操作电视机,例如用手势控制播放节目的切换等动作;2010 年 5 月,麻省理工大学的计算机人工智能实验室利用让实验者带上涂有十种颜色的手套成功地解决了识别系统中的手势分割问题,但是由于仍然需要佩戴手套,因此它和真正意义上的自然人机交互还有差别,离实际应用仍有一段距离。在实际应用领域,基于视觉的手势识别技术也已经开始进入市场,但还只是处于起步阶段。东芝、日立等公司都已经开发出运用手势遥控的电视机,它就是采用普通的摄像头作为手势采集设备。2008 年,东芝公司研发的业界首款能

31、够用手势操作的笔记本电脑Qosmio G55 面世,该电脑可以实现手势控制视频播放器、音乐播放器等操作。国内手语识别发展状况在我国, 863 项目“多功能感知机”的开发研究(1997-1999)首次涉及到手势识别技术。该项目把 ANN-HMM 的混合方法应用于含有 18 个 Cyber Glove 型号数据手套的中国手语识别系统中,能够使孤立词的识别率高达 90%,简单语句的识别率达到 92%。哈工大的吴江琴和高文等组织的团队,主要针对中国手语中单个词汇和简单的语句来识别,先后提出了:使用HMM和人工神经网络相结合的算法训练手势,识别率为94%和90%;使用动态高斯混合模型对单个的手语词汇识别

32、,识别率达98.2%;以及研发出了中国手语识别系统,使识别词汇数量和识别率显著的提高。2000年,任海兵等开发了单个动态手势与连续动态序列的手语识别系统,识别了 12个手势样本,识别率约97%。2000 年,在国际上首次实现了 500 词以上的连续中国手语识别系统。与此同时,国内相关的学术交流也日益增加:2003、2004 年成功举行的两届“和谐人机交互技术”高级研讨班标志着手势识别研究的逐渐升温。2004 年,高文等利用两个 Cyber Glove 型号的数据手套以及三个位置跟踪器来采集手势,运用 DGMM(Dynamic Gaussian Mixture Model)的识别方法能够以 98

33、.2%的识别率识别中国手势字典中的 274 个词条。清华大学祝远新、徐光祐等又提出了一种基于视觉的动态孤立手势识别技术,该技术对 12 种手势的识别率超过 90%;对于连续动态手势的识别,他们提出的识别技术对 12 种手势的平均识别率高达 97%。该技术融合手势运动信息和皮肤颜色信息来从复杂背景下分割出手势,利用动态手势的时空表现建造手势模型,最后,将动态时空规整算法作为识别分类器。 2006年,张良国等使用混合序列捆绑的隐马尔科夫模型来识别单个的手语词汇,识别率达92.5%。2008年,中科院提出了动态建模方法,综合识别率达88.3%。关于手部检测和运动跟踪的研究现状目前手部检测和跟踪技术还

34、没有达到成熟的水平,作为人机交互领域的一个分支,人手检测和跟踪技术的发展是手部运动分析的前提和基础。人手检测跟踪技术之所以还处在发展阶段,存在着很多困难和挑战,主要因为:1)人手的非刚体特性,能够在不同的视角和姿态下有较大的形变,造成人手形态的多样性。2)由于当前基于视觉的计算机技术的限制,在复杂背景下图像分割一直是个难点。3)背景的复杂性以及环境变化的不确定性,人手的颜色容易受到前景和背景中类似肤色的干扰,出现误差。这些因素都给人手检测和跟踪带来很大的困难。对于手部的检测方法中,大多数采用肤色、纹理、形状等作为检测特征,但由于人手的复杂多变性,一直没有特别稳定且成熟的检测技术。目前,人手检测

35、和运动跟踪主要有基于特征的方法、基于模板匹配的方法等。(1) 基于特征的方法肤色特征是人手最显著的特征,它不依赖于人手的细节特征,而且对于手部旋转、姿态的改变等具有相对的稳定性,能和大多数背景物体颜色区分开。因此,利用肤色检测人手是一个自然且有效的办法。虽然利用手部肤色检测方法取得较大的成果,但是肤色检测仍然存在很多难以解决的问题:1)肤色容易受到光照、背景等因素的影响;2)不同的人种所带来的肤色差异也会对肤色的检测带来干扰。因此,基于肤色特征进行人手检测存在一定的困难,多用来初步检测或者融合一些其他的特征进行多特征检测。纹理特征作为物体的特征之一,在人手检测上也有很大的应用。纹理特征是指图像

36、灰度等级的变化,是与空间统计相关的。图像的纹理特征直接反应图像本身的属性,是所有物体表面都存在的内在特征,包括物体表面组织排列结构以及物体与环境的联系等信息,有助于图像的区分。形状特征是图像表达和图像检索的另一个重要特征,含有一定的信息,能有效的检测出图像中的目标。在图像处理中,这种方法首先需要对图像进行分割,提取到物体的边缘,从而得到目标的轮廓线,然后对这种轮廓线进行检索识别。例如Yoruk E, Konukoglu E提出了基于形状特征的手部识别。基于轮廓特征的目标检测在计算机视觉中占有重要的地位,但检测中亦包含大量的非轮廓的边缘信息,因此如何去除这种干扰信息是基于轮廓检测的关键任务。(2

37、) 基于模板匹配的方法模板匹配就是在一幅图像中通过一定的方法寻找与模板最相似的区域。模板匹配方法首先将一幅图像转换为一组静态的数据,然后将获得的数据与已知模板进行匹配,从而得到二者之间的匹配度,根据匹配度即可检测出目标区域。模板匹配也是图像处理中一项重要的方法,可分为基于特征的图像匹配、基于灰度的图像匹配和基于解释的图像匹配。这种方法需要首先设定一组或多组人手模板,表示不同的人手姿态,通过计算图像与人手模板之间的相似度进行匹配检测人手。顾理, 庄镇泉等使用了基于特征矢量和点匹配的多特征融合匹配算法,提高了手形匹配的准确度和鲁棒性。关于手部识别分类的研究现状根据不同的技术标准,手部运动分析技术可

38、以分为不同的类别。根据识别目标对象形态的不同定义,可以把手势识别分为静态手部识别和动态手部识别;根据手部图像采集方式的不同,我们可以将手部识别分为基于数据手套的方法和基于计算机视觉的方法。而基于计算机视觉的方法又可以分为基于普通光学摄像头的识别方法和基于深度摄像头的识别方法。(1) 静态手部识别和动态手部识别静态手部识别的研究重点是手的姿态和手形这方面的工作。国内有很多相关的研究,例如国内哈工大的张良国等人提出一种基于 Huasdorff 距离的手部运动识别系统,李勇、高文等人提出的一种基于指尖染色和手指染色的手部运动识别模型,这种方法可以识别 30 个基本手形的静态手部动作;上海交大的刘江华

39、等人用最小二乘支持向量机(LS-SVM)作为分类器对 26 个英文字母手势进行识别;国外的 Rmeki Ziemlinski 等人提出过专门的静态手部识别方法。动态手部运动识别的时效性要求是很高的,由于其识别对象是实时输入的手部数据,并要求对输入产生实时的响应,因此对识别系统的算法速度要求更高,在这个领域国内外的研究专家投入了大量的时间、精力和热情,同时也提出了各种动态手部运动识别的算法。(2) 基于数据手套的方法和基于计算机视觉的方法研究初期,手部运动分析是通过硬件设备与计算机交互的,很多设备和传感器被用来研究手部运动,比如普通的光学摄像头。这种设备简单廉价,但是由于二维图像的局限性,很难把

40、目标从复杂、多变的背景中快速的定位和分割。数据手套,即用户需要戴上一副外形类似普通手套的传感器,计算机利用这种设备和位置跟踪技术测量手部在三维空间运动的轨迹和时序信息,获取手的位置、手指的弯曲程度等丰富的手部运动信息。基于数据手套的手部运动识别系统的优点是系统识别率高,技术便于实现。很多研究是利用数据手套等典型传感设备的方法,如台湾大学的 Liang 等人利用单个 VPL 公司的数据手套作为输入设备,技术上可以识别台湾手势课本中的 250个基本词条,识别率为 90.5%。卡耐基一梅隆大学的 Christopher Lee 和 Xu等人在 1995 年利用数据手套完成了一个可以利用手势操纵机器人

41、的手势控制系统。Kadous 用 PowerGloves 作为手部输入设备,识别有 95 个孤立词构成的词汇集,正确率为 80%。Vogler 和 Metaxas 通过数据手套和手势识别相结合,利用一个位置定位器和三个彼此垂直的摄像头作为输入设备,对 53 个手语进行识别研究,识别概率为 89.9%。之后,科学家又致力于标记手部研究,即通过在手上做一些特定标记,例如在手腕和手指上贴或画上特殊颜色的条纹,计算机通过识别这样颜色的位移和动向来识别相应的动作。例如 Dvais和 Shah 通过戴上指间具有高亮标记的彩色手套作为手部运动识别系统的输入,结果可识别 7 种不同的手部动作。电子手套等虽然可

42、以提供高精度的位置信息和手部动作,可以识别很多复杂的行为,但是这种设备在使用之前需要大量精准的调试,不方便普通人去使用和操作。此外,由于这类设备需要戴在身上,阻碍了人和机器的自然交互,再加上它昂贵的价格让普通人望而却步。为了脱离对于传感器等设备的依赖,使普通用户得到更好的使用体验,大量的研究人员开始研究如何在无接触的前提下,实现高效、友好的自然人机交互。最后,科学家终于把注意力和焦点集中到自然的手上,通过专用的脱离人手的硬件设备和脱机训练,一些研究者成功研究出基于视觉的手部运动识别系统。在基于普通光学摄像头的手部运动识别方法方面,比较具有代表性的研究成果有 Starner 等人在对其中美国手势

43、中 40 个带有词性的词汇随机组成的短句子,最后的识别率可达 99.2%。Grboel 和 Assma 通过从视频录像中提取特征,然后采用隐马尔科夫(HMM)技术识别 262 个孤立词,正确率91.3%。Freeman和 Roth 等人提出一种基于方向直方图的手部运动识别系统,美国加州圣何塞的Canesta 公司于 2004 年推出一款个人掌上电脑(PDA),该设备利用键盘上方的三维图像来识别人手在键盘上的动作来控制机器的输入。另外一种基于深度摄像头的手部运动识别技术作为一个新兴的研究热点已经越来越多的被科学家所重视。深度摄像头比如微软 Kinect,华硕 Xtion 等设备提供了一种新颖巧妙

44、的方式,除了提供普通光学摄像头所能提供的二维彩色图像外,还可以测量出目标距离深度摄像头的远近,这样整个形成一个三维的信息,利用深度摄像头获得的第三维深度信息,让以前很困难的工作,现在变的容易方便的多。关于基于 Kinect 的手部运动识别的现状Kinect 是微软在 2010 年发布的一款体感游戏设备,微软 Kinect 设备最重要的特点就是可以测量和感知变化的距离信息,通过计算,可以获得人体骨骼关键点的三维数据。而其低廉的价格和强劲的性能使其在面世之初就备受关注。利用微软 Kinect,不仅可以很方便的像数据手套一样得到人体的骨骼数据,精准的获得手部的三维信息,而且不会给使用者带来身体上任何

45、的障碍和束缚。Kinect 虽然比普通光学摄像头多得到了深度信息,但是彩色二维图像部分仍然可以使用基于视觉的行为识别技术,而结合深度图像信息的视觉图像处理方法可以更加有效的去除和屏蔽复杂多变的背景干扰,这是普通光学摄像头的识别技术所不容易实现的。Kinect 摄像头的推出既加强了原有手部运动识别技术的应用和提高,同时也引入了大量新的研究技术,对促进和提高手势识别领域起了重要作用。随着微软 Kinect 设备的上市,越来越多的人看到了 Kinect 的应用前景,基于 Kinect 的相关研究也跟着迅速展开。基于 Kinect 的手部运动识别通常利用Kinect 获取深度图像,然后使用微软提供的

46、Kinect SDK 开发工具或者 PrimeSense公司提供的 OpenNI 平台进行人体骨架识别从而获得手部位置及动作意义,或根据深度信息过滤提取出人手部分深度图,再将其转换为平面图,使用 2D 手势识别的方式进行识别。Jagdish 使用 Kinect 研究了指尖和掌心的识别和跟踪技术,Zhou Ren 和 Jingjing Meng 等人提出了新颖的 Finger-Earth Movers Distance方法,利用深度摄像头实现部运动识别。利用 Kinect 研究手部运动识别主要包括以下几个步骤,首先通过 Kinect 获得深度图像,然后进行手部提取、手部运动分析,最后输出控制指令

47、。其中手部提取、手部运动分析在手势识别之中起着关键和不可替代的作用。所以,如何准确、实时的去提取手部、进行手部运动分析,已经成为越来越多的研究者不得不面对的挑战和困难。也为手语识别技术的发展开启了新的大门。D.推荐者情况及对作品的说明说明:1由推荐者本人填写;2推荐者必须具有高级专业技术职称,并是与申报作品相同或相关领域的专家学者或专业技术人员(教研组集体推荐亦可);3推荐者填写此部分,即视为同意推荐;4推荐者所在单位签章仅被视为对推荐者身份的确认。推荐者情况姓 名性别年龄职称工作单位通讯地址邮编单位电话住宅电话手机推荐者所在单位签章 (签章) 年 月 日请对申报者申报情况的真实性作出阐述请对作品的意义、技术水平、适用范围及推广前景作出您的评价其它说明推荐者情况姓 名性别年龄职称工作单位通讯地址邮编单位电话住宅电话手机推荐者所在单位签章 (签章) 年 月 日请对申报者申报情况的真实性作出阐述 请对作品的意义、技术水平、适用范围及推广前景作出您的评价其它说明F科技制作和小发明创造类作品说明(附件)打印或粘贴处27

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!