第12章图象理解理论和系统

上传人:沈*** 文档编号:163561581 上传时间:2022-10-21 格式:PPT 页数:48 大小:406.50KB
收藏 版权申诉 举报 下载
第12章图象理解理论和系统_第1页
第1页 / 共48页
第12章图象理解理论和系统_第2页
第2页 / 共48页
第12章图象理解理论和系统_第3页
第3页 / 共48页
资源描述:

《第12章图象理解理论和系统》由会员分享,可在线阅读,更多相关《第12章图象理解理论和系统(48页珍藏版)》请在装配图网上搜索。

1、章毓晋清华大学电子工程系 100084 北京图象工程(下)第2页第11讲章毓晋(TH-EE-IE)第第1212章章图象理解理论和系统图象理解理论和系统 12.1从感知到理解 12.2图象理解理论框架 12.3图象理解系统模型12.6讨论和展望 第3页第11讲章毓晋(TH-EE-IE)12.1从感知到理解从感知到理解 1.感知理解的研究方法感知理解的研究方法(1)分析方法分析方法从分析视觉刺激开始得到了对大脑结构研究结果的支持已发现存在完成基本功能的特殊细胞,例如感知边缘、线条、运动方向等的细胞建立在不变假设上。对一个给定的视网膜投影模式,可以认为有无穷个可能的场景会导致该模式的产生。不变假设认

2、为,在这么多个可能的场景中,观察者总会选择一个且只选择一个 第4页第11讲章毓晋(TH-EE-IE)12.1从感知到理解从感知到理解 1.感知理解的研究方法感知理解的研究方法(2)综合方法 试图在感观刺激中找出所观察世界的等价物 认为视网膜上的光学图象(包括图象随时间的变化)应该包含感知空间目标所需要的全部信息其基于思路是复杂和密集的视网膜刺激可帮助进入视觉世界的不变量,即其最基本和本质的特性 第5页第11讲章毓晋(TH-EE-IE)12.1从感知到理解从感知到理解 2.图象理解系统图象理解系统完成视觉感知理解的系统是图象理解系统视觉信息从广义上说包括:由人类视觉系统感知的信息 由人类发明的各

3、种视觉装置所获取的信息 以及由这些信息推导出的其它表示形式 从上述这些信息中抽象出来的高级表达和行为规划以及与这些信息密切相关的知识和处理这些信息所需的经验 第6页第11讲章毓晋(TH-EE-IE)12.1从感知到理解从感知到理解 2.图象理解系统图象理解系统采集、表达、处理、分析和理解上述信息 基本问题是模式问题(表达)基本问题是组织问题(管理)理论还不完善,仅初步的理论框架马尔(Marr)提出的视觉计算理论 对人类视觉系统了解不充分信号处理问题 人工智能问题 第7页第11讲章毓晋(TH-EE-IE)12.2图象理解理论框架图象理解理论框架 12.2.1马尔视觉计算理论12.2.2对马尔理论

4、框架的改进12.2.3关于马尔重建理论的讨论12.2.4新理论框架的研究 第8页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论马尔1982年出版了视觉一书 Marr D.1982.Vision A Computational Investigation into the Human Representation and Processing of Visual Information.W.H.Freeman 一个理解视觉信息处理的框架要先理解视觉目的再去理解其中细节 第9页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论1.视觉是一个复杂的信息加工过程视觉是一个复

5、杂的信息加工过程视觉是一个远比人所想象更为复杂的信息加工任务和过程,而且其难度常不为人们所正视 为理解视觉这个复杂的过程,要解决两个问题 视觉信息的表达问题:某些信息是突出的和明确的,另一些信息则是隐藏的和模糊的 视觉信息的加工问题:对信息处理、分析、理解,将不同表达形式转换,逐步抽象 第10页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论2.视觉信息加工的三个要素视觉信息加工的三个要素计算理论;算法实现;硬件实现 计算理论计算理论可计算性问题可计算性问题:一个任务要用计算机完成,它应该是可以被计算的一般对于某个特定的问题,如果存在一个程序,对于给定的输入,这个程序都能在有限步

6、内给出输出,这个问题就是可计算的 第11页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论2.视觉信息加工的三个要素视觉信息加工的三个要素计算理论计算理论视觉问题是否可用现代计算机计算?对计算机给定输入,能否得到人类视觉可获得的类似结果两方面的研究内容:计算的是什么以及为什么要计算它们;提出一定的约束条件,它们可唯一地确定最终得到的运算结果 第12页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论2.视觉信息加工的三个要素视觉信息加工的三个要素算法实现算法实现需要给加工所操作的实体选择一种合适的表达选择加工的输入和输出表达确定完成表达转换的算法一般情况下可以有许多可

7、选的表达算法的确定常取决于所选的表达给定一种表达,可有多种完成任务的算法 第13页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论2.视觉信息加工的三个要素视觉信息加工的三个要素硬件实现硬件实现有了表达和算法在物理上如何实现算法也是必不可少的 算法的确定常依赖于物理上实现算法硬件的特点同一个算法也可由不同的技术途径实现 第14页第11讲章毓晋(TH-EE-IE)2.视觉信息加工的三个要素视觉信息加工的三个要素视觉信息加工三要素的含义 要素要素名称名称含义和所解决的问题含义和所解决的问题1计算理论什么是计算目的,为什么要这样计算2表达和算法怎样实现计算理论,什么是输入输出表达,用什

8、么算法实现表达间的转换12.2.1马尔视觉计算理论第15页第11讲章毓晋(TH-EE-IE)2.视觉信息加工的三个要素视觉信息加工的三个要素 它们之间有一定的逻辑因果联系,但并无绝对的依赖关系 实际上看成两个层次更恰当 一旦有了计算理论,表达和算法与硬件实现是互相影响的12.2.1马尔视觉计算理论表达和算法硬件实现计算理论第16页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(1)基素表达(primal sketch)一种2-D表达,它是图象特征的集合,描述了物体上属性发生变化的轮廓部分只用基素表达不能保证得到对场景的唯一解释(a

9、)(b)(c)(d)(e)第17页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(2)2.5-D表达(2-D sketch)将物体可见面正交投影分解成单元表面用法线代表单元表面的取向将各法线画出,叠加于物体轮廓内可见面上 第18页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(2)2.5-D表达(2-D sketch)本征图,表示了物体表面面元的朝向可将2.5-D图转化成(相对)深度图 既表达了一部分物体轮廓的信息(这与基素表达类似)表达了以观察者为中心、可观察到的物

10、体表面的取向信息 与人所理解的3-D物体一致(可见物体轮廓以内目标的3-D信息,如边界、深度,反射特性等)第19页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(2)2.5-D表达(2-D sketch)将2.5-D图转化成(相对)深度图给定z(x,y)对x和y的偏导p和q,理论上讲可通过在平面上沿任意曲线的积分来恢复z(x,y)为最小化误差可选择z(x,y)满足),(),(0000)dd(),(),(yxyxyqspyxzyxzyxqzpzIyxdd )()(22第20页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算

11、理论3.视觉信息的三级内部表达视觉信息的三级内部表达(3)3-D表达(3-D representation)以物体为中心(即也包括了物体不可见部分)的表达形式 在以物体为中心的坐标系中描述3-D物体的形状及其空间组织 空间占有数组,单元分解,几何模型广义圆柱体表达方法 第21页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达 从计算机或信息加工的角度来说,视觉可计算性问题可分成几个步骤,步骤之间是某种表达形式,而每个步骤都是把前后两种表达形式联系起来的计算/加工方法第22页第11讲章毓晋(TH-EE-IE)3.视觉信息的三级内部表达

12、视觉信息的三级内部表达 名称名称目的目的基元基元图象表达场景的辉度或物体的照度象素(值)基素图表达图象中亮度变化位置、物体轮廓的几何分布和组织结构零交叉、端点、边缘段、边界等2.5-D图在以观察者为中心的坐标系中表达物体可见表面的取向、深度、边界等性质局部表面朝向(“针”基元)、表面朝向的不连续点、深度、深度上不连续点3-D图在以物体为中心的坐标系中,用体元或面元集合描述形状和形状的空间组织形式3-D模型,以轴线为骨架,将体元或面元附在轴线上12.2.1马尔视觉计算理论第23页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论4.视觉信息处理按照功能模块的形式组织视觉信息处理按照功

13、能模块的形式组织 把视觉信息的系统看成由一组相对独立功能模块所组成的思想,不仅有计算方面进化论和认识论的论据支持,而且某些功能模块已经能用实验的方法分离出来 人通过使用多种线索或从它们的结合来获得各种本征视觉信息。这启示计算机视觉系统应该包括许多模块,每个模块获取某一特定的视觉线索,结合不同的模块来最终完成视觉任务 第24页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论5.计算理论形式化表示必须考虑约束条件计算理论形式化表示必须考虑约束条件 在图象采集获取过程中,原始场景中的信息会发生各种变化(1)当3-D的场景被投影为2-D图象时,丢失了物体深度和不可见部分的信息(2)图象是

14、从特定视角获取的,同一物体的不同视角图象会不同,另外由于物体遮挡也会丢失信息(3)成象投影使得照明、物体几何形状和表面反射特性、摄象机特性、光源与物体和摄象机之间的空间关系等都被综合成单一的图象灰度值,很难区分(4)在成象过程中不可避免地会引入噪声和畸变 第25页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论5.计算理论形式化表示必须考虑约束条件计算理论形式化表示必须考虑约束条件 适定的问题:如果它的解是:存在的;唯一的;连续地依赖于初始数据原始场景中信息发生变化的原因,使得将视觉处理问题作为光学成象过程逆问题的求解方法不适定,成了病态问题利用约束条件可改变病态问题通过给计算问

15、题加上约束条件可使它含义明确从而能够获解 第26页第11讲章毓晋(TH-EE-IE)12.2.2对马尔理论框架的改进四个有关整体框架的问题:(1)框架中输入是被动的(2)框架中加工目的不变,总是恢复场景中物体的位置和形状等(3)框架未足够重视高层知识的指导作用(4)整个框架中信息加工过程基本自下而上,单向流动,没有反馈 第27页第11讲章毓晋(TH-EE-IE)12.2.2对马尔理论框架的改进四个方面的相应改进:(1)增加了图象获取模块(2)根据视觉目的进行决策(3)利用高层知识可解决低层信息不足的问题(4)增加了反馈控制流向 图象获取早期处理中期处理后期处理视觉目的高层知识反馈第28页第11

16、讲章毓晋(TH-EE-IE)12.2.3关于马尔重建理论的讨论1.重建理论的问题重建理论的问题 不同视觉任务/工作的共同的概念核心被假定为表达,共同的处理目标是根据视觉刺激恢复场景并结合进表达中 如果视觉系统能恢复场景的特性,人能进一步从各种线索中提取出从内部构建视觉世界的表达 视觉被看作一个由刺激开始,顺序的获取和积累的重建过程 第29页第11讲章毓晋(TH-EE-IE)12.2.3关于马尔重建理论的讨论1.重建理论的问题重建理论的问题视觉过程不仅仅是一个单通路的处理过程 随着高层视觉信息的心理学研究成果和对高层视觉区域的解剖和功能组织的知识的增加 根据重建的表达有一系列问题:(1)在所有可

17、能对场景进行解释的方法中,包含重建的方法兜的圈子最大,因为重建并不对解释有直接贡献第30页第11讲章毓晋(TH-EE-IE)12.2.3关于马尔重建理论的讨论1.重建理论的问题重建理论的问题根据重建的表达有一系列问题(续)(2)仅靠从原始图象中进行重建来实现表达在实际中也很难实现(3)概念上的问题具有一个普遍统一的表达是否值得?最好的表达应该是最适合工作的表达对给定计算问题选择正确表达 第31页第11讲章毓晋(TH-EE-IE)12.2.3关于马尔重建理论的讨论2.不需重建的表达不需重建的表达“精神表达语义”(semantics of mental representations)用自然的和可

18、预测的方式来进行表达特征检测器构成了视觉世界中的某种特征存在性的表达对整个目标和场景的表达可以随后根据这些基元(如果基元足够多)来构建 第32页第11讲章毓晋(TH-EE-IE)12.2.4新理论框架的研究1.基于知识的理论框架基于知识的理论框架(1)利用对感知组织的处理过程,从图象特征中提取相对于观察方向在大范围内保持不变的分组和结构(2)借助图象特征构建模型,在这个过程中利用概率排队的方法减小搜索空间(3)通过求解未知的观察点和模型参数寻找空间对应关系,使得3-D模型的投影直接与图象特征相匹配第33页第11讲章毓晋(TH-EE-IE)12.2.4新理论框架的研究2.主动视觉理论框架主动视觉

19、理论框架(1)选择注意机制(2)注视控制 第34页第11讲章毓晋(TH-EE-IE)12.3图象理解系统模型图象理解系统模型 12.3.1系统模型结构 12.3.2多层次串行结构 12.3.3以知识库为中心的辐射结构12.3.4以知识库为根的树结构 12.3.5多模块交叉配合结构第35页第11讲章毓晋(TH-EE-IE)12.3.1系统模型结构系统性能将主要取决于两方面的因素:系统性能将主要取决于两方面的因素:(1)在总体上是如何组织的,由哪些模块组成,模块间如何联系(2)每个模块内采用了何种技术,如何对信息进行加工典型系统模型松散的知识库模型 图象采集客观世界内部表达视觉系统知识库视觉理解第

20、36页第11讲章毓晋(TH-EE-IE)12.3.2多层次串行结构 多层次串行结构将视觉信息加工过程看作一个信息处理过程,具有确定的输入和输出,因而将视觉信息系统组织成一系列分处于不同层次的模块并以串行方式结合起来,每个模块(在其它模块的协同配合下)按顺序执行一些特定的工作,从而逐步完成预定的视觉任务可包括由底向上(bottom up)的处理(比较通用但不一定总有效)和由顶向下(top down)的处理(在约束充分时效率会比较高)第37页第11讲章毓晋(TH-EE-IE)12.3.3 以知识库为中心的辐射结构可以看作是一种类比于人类视觉系统的结构。它的特点是以知识为中心,系统整体不分层,信号在

21、各个模块及知识库中多次进行交换处理在组成上,人类视觉系统与计算机视觉信息系统有很大不同2010年计算机会达到与人脑大约相同的处理器个数P.301 图象匹配区域提取符号表达结果模型知识库(策略)第38页第11讲章毓晋(TH-EE-IE)12.3.4以知识库为根的树结构 以知识库为根的树结构主要是一种模块分类方式,它根据对知识的不同表达类型进行组织(1)广义图象:场景中有关图象类实体的集合(2)分割图象:通过将广义图象中的元素聚合成与场景中有意义物体相关联的集合而得到(3)几何结构:它是描述图象和客观世界的模型(4)关系结构:它给出图象和结构的符号描述 第39页第11讲章毓晋(TH-EE-IE)1

22、2.3.5多模块交叉配合结构视觉信息系统应使得主观的观察用户能从客观的场景获得不同类别和层次的信息以通过系统认识世界。多模块交叉配合结构将整个系统分成多个模块,各有确定的输入和输出,且互相配合交叉,比较灵活从总体上看,尤其是在低层和中层处理阶段,采用了多层次串行结构,从客观场景获取的视觉信息经过一系列加工过程到达观察用户。但在部分地方,特别是高层加工阶段,系统又基本围绕知识模型进行组织 第40页第11讲章毓晋(TH-EE-IE)12.3.5多模块交叉配合结构图象采集基元检测特征测量图象分割目标表达系统库知识模型三维描述场景恢复匹配客 观 场 景观 察 用 户场景解释第41页第11讲章毓晋(TH

23、-EE-IE)12.4具体系统分析具体系统分析 12.4.1VISIONS 系统 12.4.2ACRONYM 系统 12.4.3KB Vision 系统 第42页第11讲章毓晋(TH-EE-IE)12.4.1VISIONS 系统一个基于图象中区域的二维图象信息系统 在一定先验知识的指导下,对图象中的区域并从而对场景中的物体以正确解释(1)数据驱动(2)知识驱动(1)输入到模型(2)模型到输入 第43页第11讲章毓晋(TH-EE-IE)12.4.2ACRONYM 系统与领域无关并基于模型的三维图象信息系统 1.建模(模型化):合成的广义圆柱体2.预测:自动预测具有不变性质的图象特征3.描述:与模

24、型无关的图象特征图4.解释:根据预测图与特征图的匹配解释场景第44页第11讲章毓晋(TH-EE-IE)12.4.3KB Vision 系统基于知识的图象理解环境 三层模型结构:低层图象矩阵中层符号描述高层场景解释第45页第11讲章毓晋(TH-EE-IE)12.5典型系统比较典型系统比较 五方面:五方面:建模(系统对目标模型化)、特征(系统提取以描述物体的景物特征)、匹配(系统如何匹配景物描述和模型描述)、主要优点和缺点 1.Nevatia和Binford系统 2.Bhanu系统 3.3DPO系统(three-dimensional part orientation system)4.Fan系统

25、 第46页第11讲章毓晋(TH-EE-IE)12.6讨论和展望讨论和展望 1.多信息融合多信息融合(突破信息获取方式的局限性)2.初级视觉初级视觉(光学成象逆问题)3.主动视觉主动视觉(观察者运动,改变病态结构问题)4.结合人类视觉系统结合人类视觉系统(可比拟)5.信息流动模式信息流动模式(局部到全局,全局到局部)第47页第11讲章毓晋(TH-EE-IE)12.6讨论和展望讨论和展望 6.视频计算和理解视频计算和理解(引入时间信息)7.算法和系统的评价算法和系统的评价(效率和性能非常重要)8.并行计算结构并行计算结构(视觉具有内在并行性)9.引进新的数学工具引进新的数学工具(应先考虑问题本身)10.通用图象信息系统通用图象信息系统(能否实现?)第48页第11讲章毓晋(TH-EE-IE)F 通信地址:北京清华大学电子工程系F 邮政编码:100084F 办公地址:清华大学东主楼,9区307室F 办公电话:(010)62781430F 传真号码:(010)62770317F 电子邮件:F 个人主页: 实验室网:联联 系系 信信 息息

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!