TLD算法详解ppt课件

上传人:无*** 文档编号:177868228 上传时间:2022-12-27 格式:PPT 页数:36 大小:2.82MB
收藏 版权申诉 举报 下载
TLD算法详解ppt课件_第1页
第1页 / 共36页
TLD算法详解ppt课件_第2页
第2页 / 共36页
TLD算法详解ppt课件_第3页
第3页 / 共36页
资源描述:

《TLD算法详解ppt课件》由会员分享,可在线阅读,更多相关《TLD算法详解ppt课件(36页珍藏版)》请在装配图网上搜索。

1、ppt课件.1TLD算法ppt课件.21.TRACKING-L EARNING-DETECTIONTLD是一种对视频中未知目标进行长期跟踪而设计的算法结构。它的结构如图1-1所示。图1-1ppt课件.31.TRACKING-L EARNING-DETECTION算法的结构如下:1.关于跟踪器(tracker),在假设帧与帧之间(目标物体)运动是有限的,并且目标是可见的的情况下,跟踪器(采用的是光流法)估计目标的运动状况(即接下来的位置)。但是跟踪器会在目标跑出摄像头拍摄范围时失败,并且永远不可能恢复。2.关于检测器(detector),检测器对每一帧都独立的对待,并且对每一帧图像进行扫描,找出

2、所有过去(算法运行开始后到当前时刻)已经被观测和学习过和目标具有类似模样的所在区域(这句翻译的不好,原文:Detector treats every frame as independent and performs full scanning of the image to localize all appearances that have been observed and learned in the past.)。对于任何的检测器,都有可能发生两个类型的错误:假的正样本和假的负样本。3.关于学习模块(learning)。学习模块根据跟踪模块的结果对检测模块的这两种错误进行评估,并根据

3、评估结果生成训练样本对检测模块的目标模型进行更新,同时对跟踪模块的“关键特征点”进行更新,以此来避免以后出现类似的错误。ppt课件.42.P-N LEARNING(重要)这一部分介绍TLD算法的学习模块,学习模块(learning)通过对视频的在线处理来提升检测器(detector)的性能。在每一帧里,我们希望评估当前的检测器,发现它产生的错误(identify its errors),不断更新检测器以避免将来它再次犯错。PN学习的关键思想是检测器产生的错误结果可以被“P专家”和“N专家”发现和识别。P专家识别假的负样本,N专家识别假的正样本。当然P专家和N专家本身也会犯错。然而,P专家和N专

4、家是相互独立的,它们可以相互弥补对方发生的错误。P专家发生的错误,N专家纠正,反之亦然。下面对PN学习进行标准数学化。ppt课件.52.P-N LEARNINGx是特征空间X的一个样本,y是标签空间Y的其中一个标签,Y=-1,+1在一组例子里,X被称为未被标记的集合,Y称为标签集合。L=(x,y)称为被标记集合。PN学习的输入是一个标记集合Ll和一个未标记集合Xu,标记集合样本的数量l远远小于未标记集合样本数量u。PN学习的任务是形成一个分类器f:X Y,把未标记样本变为标记样本。说了这么多,其实就是机器学习和分类。-1表示负样本(不包含跟踪目标的样本),+1表示正样本(包含跟踪目标的样本)。

5、下面几句话不懂啥意思:Classifier f is a function from a family F parameterized by o.The family F is subject to implementation and is considered fixed in training,the trainingtherefore corresponds to estimation of the parameters o(这个Family F是什么东东?)ppt课件.62.P-N LEARNINGTLD模块的详细;流程框图如下所示 ppt课件.72.P-N LEARNINGPN学习

6、包含四个部分:(1)一个待学习的分类器;(2)训练样本集-一些已知类别标签的样本;(3)监督学习-一种从训练样本集中训练分类器的方法;(4)P-N experts-在学习过程中用于产生正(训练)样本和负(训练)样本的表达函数;PN学习最重要的部分是分类器的错误估计。关键的想法是把假的正样本和假的负样本分别独立的处理。因此,未标记的组会被现有的分类器分为两类,每一部分由一个独立的专家分析(P专家或N专家)。首先根据一些已有类别标记的样本,借助监督学习方法来训练,从而得到一个初始分类器。之后,通过迭代学习,利用上一次迭代得到的分类器对所有的未赋予标签的样本数据进行分类,而P-N experts则找

7、出那些错误分类的样本,并依此来对训练样本集做出修正,使得下一次迭代训练之后得到的分类器的性能有所改善。P-experts将那些被分类器标记为负样本,但根据结构性约束条件应该为正样本的那些样本赋予“正”的标签,并添加到训练样本集中;而N-experts则将那些被分类器标记为正样本,但根据结构性约束条件应该为负样本的那些样本赋予“负”的标签,并添加到训练样本集当中;这也就意味着,P-experts增加了分类器的鲁棒性,而N-experts则增加了分类器的判别能力。ppt课件.82.P-N LEARNING以下部分为理论推导,证明PN学习是一种稳定可靠的学习分类器,对理解TLD原理是很有用的。在第k

8、次迭代中,n+(k)表示P专家产生的正样本(原来被classifier分为负样本),n-(k)表示N专家产生的负样本(原来被classifier分为正的样本)。为了分析方便,假设未被标记的样本(unlabeled data)我们已知其分类。那么我们就能知道分类器(classifier)和PN专家产生的错误。a(k)表示classifier产生的假正样本数量,B(k)表示classifier产生的假负样本的数量。nc+(k)表示P专家产生正确的正样本(原来被classifier错误的划分为负样本),nf+(k)表示P专家产生的错误的正样本的数量。同理,nc-(k)表示N专家产生正确的负样本(原来

9、被classifier错误的划分为负样本),nf-(k)表示N专家产生的错误的负样本的数量。则我们可以有如下等式:n+(k)=(nc+(k)+(nf+(k)n-(k)=(nc-(k)+(nf-(k)a(k+1)=a(k)-(nc-(k)+(nf+(k)(1)B(k+1)=B(k)-(nc+(k)+(nf-(k)(2)ppt课件.92.P-N LEARNING式(1)说明a(k)会下降如果nc-(k)nf+(k),即被正确地重新标定为负样本(原先被classifier错误分为正样本)的数量大于被错误地重新标定位负样本(原先被classifier正确的划分为负样本)的数量。同理B(k)会下降如果n

10、c+(k)nf-(k)。(必须好好的理解这两句话)原文:ppt课件.102.P-N LEARNING为了分析证明PN学习的收敛,我们要对PN学习建立一个模型。在这里,我们定义四个参数:nc(k)+,nf(k)+,B(k)均简化为nc+,nf+,BP-precision:P+=(nc+)/(nc+)+(nf+);表示P专家产生的正样本的可靠性P-recall:R+=nc+/B 表示被P专家识别出来,原先被classifier错误划分为负样本数量的百分比 N-precision:表示N专家产生的负样本的可靠性 N-recall:表示被N专家识别出来的,原先被classifier错误划分为假的正样本

11、数量的百分比ppt课件.112.P-N LEARNING我们可以建立如下等式:和之前的等式:这几个式子一起联立,得到下面的等式ppt课件.122.P-N LEARNING我们定义状态向量 和一个2X2大小的矩阵M我们就可以把等式(3a)和(3b)重新改写成根据动态学系统的相关数学理论,x(k)会变为0(即a(k),B(k)趋向于0,这是我们想要的结果),只要M矩阵的特征值 都比1小即可ppt课件.132.P-N LEARNING在实际的情况下(估计是作者经过实验论证),M矩阵的特征值不一定每次都会小于1,但小于1的情况会占绝大多数。下面我们就举例来说明PNPN学习的运行机制:学习的运行机制:假

12、设存在三个连续的视频帧如下所示,每个视频帧之上都有若干个扫描窗口如图6(a)所示所示 ppt课件.142.P-N LEARNING每一个扫描窗口就表示一个图像片(image patch),图像片的类别标签用(b)(c)中的彩色圆点来表示。检测模块对每个图像片的类别赋值过程是彼此独立的,因此,N个扫描窗口就存在个类别标签的组合。而(b)则显示了其中一种可能的类别标签形式,这种类别标签标明,待检测目标在一个视频帧中可能同时出现在好几个区域,并且,待检测目标在相邻视频帧之间的运动没有连续性(例如(b)中最前面的图像中右上角的红色圆点在后面的两个图像中均没有出现),显然,这种类别标签形式是错误的。相反

13、,(c)所示的类别标签形式则显示,每个视频帧中,目标只可能出现在一个区域,并且,相邻视频帧之间检测到的目标区域是连续了,构成了一个目标的运动轨迹。这种性质,我们称之为“结构性”的。PN学习的关键就是找到这种结构性的数据,从而来判别检测模块所产生的错误标签。ppt课件.152.P-N LEARNING刚才的例子表明:P-experts寻找视频序列中的时域上的结构性特征,并且假设目标是沿着轨迹线移动的,即,相邻帧之间的移动很小,且存在一定的相关性。P-experts记录目标在上一帧中的位置,并根据帧与帧之间的跟踪算法(这里采用的是LK光流法)来预测目标在当前帧中的位置。如果检测模块将跟踪算法预测到

14、的目标在当前帧中的位置标记为负标签,那么P-experts就产生一个正的训练样本;N-experts寻找视频序列中的空间域上的结构性特征,并且假设目标在一个视频帧中只可能出现在一个位置。N-experts对检测模块在当前帧中的所有输出结果以及跟踪模块的输出结果进行分析,并找到具有最大可能性的那个区域。当前帧中所有目标可能出现的区域当中,如果某个区域同最大可能性区域之间没有重叠,就将其认定为负样本。另外,具有最大可能性的那个区域,被用于重新初始化跟踪模块。下面,再给出一个例子来说明情况,如下图所示:ppt课件.162.P-N LEARNINGppt课件.172.P-N LEARNING上图所示为

15、三个连续的视频帧,PN学习需要处理的是t时刻那个黄色框所在区域的那个小车。跟踪模块在相邻帧之间给出小车的位置,从前面的分析我们知道,跟踪模块给出的区域可以被P-experts用来产生正的训练样本;但由于遮挡,在t+2时刻,P-experts产生了错误的正(训练)样本;与此同时,N-experts则找出目标最可能出现的位置(用红色的星号来标记,这个结果后面会提到是根据detector检测器检测与要跟踪的目标长得最相似的图像区域),并且将所有其他的区域标记为负的训练样本;这里,N-experts在t+2时刻很好的修正了P-experts的错误;ppt课件.183.IMPLEMENTATION OF

16、 TLD介绍完以上的理论部分,终于可以讲点实际内容了。这一部分介绍TLD的具体是怎么实施的。TLD模块的详细;流程框图如下所示:ppt课件.193.IMPLEMENTATION OF TLD在任意时刻,被跟踪目标都可以用其状态属性来表示。该状态属性可以是一个表示目标所在位置、尺度大小的跟踪框,也可以是一个标识被跟踪目标是否可见的标记。两个跟踪框的空间域相似度是用重叠度(overlap)来度量,其计算方法是两个跟踪框的交集与两者并集的商。目标的形状采用图像片(imagepatch,个人认为,可以理解为滑动窗口)p来表示,每一个图像片都是从跟踪框内部采样得到的,并被归一化到15*15的大小。两个图

17、相框pi,pj的相似度用以下式子衡量。NCC简介,NCC是normalizd correlation coefficient,归一化的相关系数 NCC(y1,y2)=ppt课件.203.IMPLEMENTATION OF TLDppt课件.213.IMPLEMENTATION OF TLDppt课件.223.IMPLEMENTATION OF TLD下面介绍检测器模块。这样一来,对于大小为320*240的图像来说会产生约5万个图相框。这是一个非常巨大的数字,如果没有非常有效的分类器,计算运行将十分缓慢。如下图所示,我们的分类器是有三个小分类器级联而成,每一个小分类器会删掉一部分的图相框。ppt

18、课件.233.IMPLEMENTATION OF TLD下面分别介绍这3个分类器。1.patch-variance1.patch-variance分类器分类器,这个分类器去除所有方差小于被跟踪图相框(我猜想是应该是说上一帧图像跟踪区域的图相框,因为这一帧还没检测到)像素方差50%的图相框。像素方差通过 计算,IE(p)可以用积分图来估计,也可以直接计算,但用积分图可以加快程序运行速度,什么是积分图?请参考于仕琪编写的学习opencv中文版第206,207页,有详细介绍,积分图在提取harr特征时也常用。这样,我们可以滤除一些不包含目标的图相框,这些图相框有个特点,就是比较“光滑”,方差小,比如

19、蓝天,马路,都是属于背景图像。2.Ensemble Classifier2.Ensemble Classifier分类器分类器,经过patch-variance分类器之后未被滤除的图相框进入Ensemble Classifier分类器。Ensemble Classifier分类器又可以分成n个基本的分类器。每个基本的分类器i进行像素的比较,产生一串2进制的代码x,这串2进制代码指向一个后验概率Pi(y|x)y属于0,1,所有基本分类器产生的后验概率会被平均,Ensemble Classifier分类器把平均后验概率大于50%的图相框认为是包含目标的图相框。ppt课件.243.IMPLEMENT

20、ATION OF TLDEnsemble Classifier分类器要进行像素比较,那么什么是像素比较?关于像素比较有3篇论文(可以去读一下):我们主要是了解brief特征,我个人理解是brief特征可能就是像素比较的意思。ppt课件.253.IMPLEMENTATION OF TLD提取brief特征的步骤:1.给定一副图2.对图像做平滑处理。平滑处理,也就是高斯滤波,也就是blur operation,降低图像噪声。平滑处理在BRIEF中很重要,后面还会再说到这个。3.在图像上,选择一个局部块区patch,用p表示,它的大小是SxS像素,在p上面提取BREIF特征。定义 测试。x,y表示在

21、patch内像素点的位置(ux,vx)(uy,vy)。p(x),p(y)表示处于x,和y位置像素大小。从这个公式,我们可以看出,构造一个512个bit的BRIEF,就需要512对x,y,且需要注意,它们是有序的,每次计算位置都相同,否则影响最终结果。也就说说,一旦选定了512对x,y,那么,无论是提取特征,还是匹配特征,都要按照这512对进行计算。512/8=64就是存储BRIEF所需的字节数,论文将512个bit的BRIEF又称作BRIEF-64。ppt课件.263.IMPLEMENTATION OF TLD下图个例子,经过像素比较,提取的brief特征,仔细看第三幅,这些点是一对对的。pp

22、t课件.273.IMPLEMENTATION OF TLD像素比较的步骤:像素比较的步骤:首先,我们将像素位置的空间在一个标准化的图相框内进行离散化,并且产生所有水平和垂直的像素比较(就是brief特征)。接着,我们重新排列这些比较,并且把它们分配到基本分类器中。结果是每个基本分类器i都会分到不同的像素比较(就是brief特征),所有的特征加在一起刚好覆盖了整幅图相框(patch)。下面这段话是解释什么是后验概率后验概率(Posterior probabilities.)不好理解。ppt课件.283.IMPLEMENTATION OF TLD对上面这段话,想了很多时间,我最后的理解可能是这个意

23、思:后验概率:每个基本分类器i都有一个后验概率分布Pi(y|x),这个分布有2的d次方个输入(就是说x有2的d次方个值的选择范围),d表示采用了多少对像素比较,我们采用d=13,会产生8192种二进制代码,去对应相应的后验概率。这里我们用Pi(y|x)=#p/(#p+#n)来估计后验概率。#p和#n表示正负图相框的数量。他们分别被赋予相同的二进制代码。下面用一幅图说明了这个意思,比如在基本分类器i中,经过过像素比较,得出一串二进制代码0 0 0 0 0 0 0 0 0 1 0 1 1,即11,则P(1|11)=0.4,P(0|11)=1-P(1|11)=0.6;即在基本分类器i里,一个图相框的

24、像素比较产生0 0 0 0 0 0 0 0 0 1 0 1 1的二进制代码的结果是有40%的可能是正样本,60%的可能是负样本。ppt课件.293.IMPLEMENTATION OF TLDppt课件.303.IMPLEMENTATION OF TLDEnsemble ClassifierEnsemble Classifier分类器的初始化和更新分类器的初始化和更新:在最开始阶段,所有基本分类器的后验概率被设为0(即一开始把所有的图相框都认为是负样本)。Ensemble Classifier更新的方法如下,我们用已经被标记的样本(比如第一帧图像,我们要跟踪用手动框出来的就是正样本,其余周围的都

25、是负样本)让Ensemble Classifier去识别,如果识别错误,就修改它的#p和#n,从而更新Pi(y|x)。ppt课件.313.IMPLEMENTATION OF TLD3.Nearest Neighbor Classifier3.Nearest Neighbor Classifier(NN classifierNN classifier),经过第一阶段的方差滤波器(patch-variance classifier)和第二阶段的Ensemble Classifier,我们可以滤除绝大多数的负样本的图相框,大约还会剩余50个还不能判定的图相框。对于这剩下的图相框,如果 这个符号我们之前解释过,是相关相似性。=0.6,这是一个经验值。那如果万一图相框(经过前两个阶段滤除后)的数量依然巨大,超过了规定的阈值,那怎么办?我们就采用随机模板遗忘法,我们通过观察发现每一次的输入的图像框都稳定在几百张,消耗的内存不会很大。ppt课件.323.IMPLEMENTATION OF TLDppt课件.333.IMPLEMENTATION OF TLDppt课件.343.IMPLEMENTATION OF TLDppt课件.353.IMPLEMENTATION OF TLD此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!