文本分类II-支持向量机SV课件

上传人:阳*** 文档编号:115341884 上传时间:2022-07-01 格式:PPT 页数:38 大小:724KB
收藏 版权申诉 举报 下载
文本分类II-支持向量机SV课件_第1页
第1页 / 共38页
文本分类II-支持向量机SV课件_第2页
第2页 / 共38页
文本分类II-支持向量机SV课件_第3页
第3页 / 共38页
资源描述:

《文本分类II-支持向量机SV课件》由会员分享,可在线阅读,更多相关《文本分类II-支持向量机SV课件(38页珍藏版)》请在装配图网上搜索。

1、文本分类II-支持向量机SV支持向量机( support vector machine,SVM) 文本分类II-支持向量机SVOutlinenSVM的理论基础n线性判别函数和判别面n最优分类面n支持向量机nSVM的研究与应用文本分类II-支持向量机SVSVM的理论基础n传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(STL)研究有限样本情况下的机器学习问题。SVM的理论基础就是统计学习理论。n传统的统计模式识别方法在进行机器学习时,强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”,其推广能力较差。n推广能力推广能力是指: 将学习机器(即预测函数,

2、或称学习函数、学习模型)对未来输出进行正确预测的能力。文本分类II-支持向量机SV过学习问题过学习问题n“过学习问题过学习问题”:某些情况下,当训练误差过小反而会导致推广能力的下降。n例如:对一组训练样本(x,y),x分布在实数范围内,y取值在0,1之间。无论这些样本是由什么模型产生的,我们总可以用y=sin(w*x)去拟合,使得训练误差为0。文本分类II-支持向量机SVSVMn根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。nVapnik 提出的支持向量机(

3、Support Vector Machine, SVM)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。n形成时期在19921995年。 文本分类II-支持向量机SVSVMn由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解。nSVM在解决小样本、非线性及高维模式识别问在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。到函数拟合等其他机器学习问题中。nJoachi

4、ms最近采用SVM在Reuters-21578来进行文本分类,并声称它比当前发表的其他方法都好。 文本分类II-支持向量机SVOutlinenSVM的理论基础n线性判别函数和判别面n最优分类面n支持向量机nSVM的研究与应用文本分类II-支持向量机SV线性判别函数和判别面n一个线性判别函数(discriminant function)是指由x的各个分量的线性组合而成的函数 n两类情况:对于两类问题的决策规则为n如果g(x)0,则判定x属于C1,n如果g(x)0;当;当x点在超平面的负侧时,点在超平面的负侧时,g(x)0,则判定x属于C1,如果g(x)0,则判定x属于C2,如果g(x)=0,则可

5、以将x任意分到某一类或者拒绝判定。 文本分类II-支持向量机SV广义线性判别函数文本分类II-支持向量机SV广义线性判别函数文本分类II-支持向量机SV设计线性分类器 文本分类II-支持向量机SVFisher线性判别方法n如:Fisher线性判别方法,主要解决把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。n然而在d维空间分得很好的样本投影到一维空间后,可能混到一起而无法分割。n但一般情况下总可以找到某个方向,使得在该方向的直线上,样本的投影能分开的最好。n目的是降维,在低维空间中分割文本分类II-支持向量机SVOutlinenSVM的理论基础n线性判别函数和判别面n最优分

6、类面n支持向量机nSVM的研究与应用文本分类II-支持向量机SV最优分类面最优分类面 nSVM 是从线性可分情况下的最优分类面发展而来的, 基本思想可用图2的两维情况说明. 图中, 方形点和圆形点代表两类样本, H 为分类线,H1, H2分别为过各类中离分类线最近的样本且平行于分类线的直线, 它们之间的距离叫做分类间隔(margin)。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大.推广到高维空间,最优分类线就变为最优分类面。 文本分类II-支持向量机SV最优分类面最优分类面文本分类II-支持向量机SV如何求最优分类面 文本分类II-支持向量机SV最优分

7、类面最优分类面文本分类II-支持向量机SVOutlinenSVM的理论基础n线性判别函数和判别面n最优分类面n支持向量机nSVM的研究与应用文本分类II-支持向量机SV支持向量机 所得到的最优分类函数为:n该式只包含待分类样本与训练样本中的支持向量的内积运算,可见,要解决一个特征空间中的最优线性分类问题,我们只需要知道这个空间中的内积运算即可。n 对非线性问题, 可以通过非线性变换转化为某个高维空间中的线性问题, 在变换空间求最优分类面. 这种变换可能比较复杂, 因此这种思路在一般情况下不易实现.*1( )sgnsgn()kiiiif xwxby xxb 文本分类II-支持向量机SV支持向量机

8、文本分类II-支持向量机SV核函数的选择文本分类II-支持向量机SVSVM方法的特点n 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;n 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;n 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。n SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”(transductive inference) ,大大简化了

9、通常的分类和回归等问题。文本分类II-支持向量机SVSVM方法的特点nSVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。n 少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在:n增、删非支持向量样本对模型没有影响;n支持向量样本集具有一定的鲁棒性;n有些成功的应用中,SVM 方法对核的选取不敏感。文本分类II-支持向量机SVOutlinenSVM的理论基础n线性判别函数和判别面n最优分类面n支持向

10、量机nSVM的研究与应用文本分类II-支持向量机SVSVM 应用n近年来SVM 方法已经在图像识别、信号处理和基因图谱识别等方面得到了成功的应用,显示了它的优势。nSVM 通过核函数实现到高维空间的非线性映射,所以适合于解决本质上非线性的分类、回归和密度函数估计等问题。n支持向量方法也为样本分析、因子筛选、信息压缩、知识挖掘和数据修复等提供了新工具。 文本分类II-支持向量机SV支持向量机的研究n对支持向量机的研究主要集中在对SVM本身性质的研究以及加大支持向量机应用研究的深度和广度两方面。nSVM训练算法训练算法n传统的利用标准二次型优化技术解决对偶问题的方法,是SVM训练算法慢及受到训练样

11、本集规模制约的主要原因。n目前已提出了许多解决方法和改进算法,主要是从如何处理大规模样本集的训练问题、提高训练算法收敛速度等方面改进。n主要有:分解方法、修改优化问题法、增量学习法、几何方法等分别讨论。 文本分类II-支持向量机SVSVM分类算法分类算法nSVM分类算法分类算法n训练好SVM分类器后,得到的支持向量被用来构成决策分类面。对于大规模样本集问题,SVM训练得到的支持向量数目很大,则进行分类决策时的计算代价就是一个值得考虑的问题。n解决方法如:缩减集(Reduced Set) SVM方法,采用缩减集代替支持向量集,缩减集中的向量不是支持向量,数目比支持向量少,但它们在分类决策函数中的

12、形式与支持向量相同。 文本分类II-支持向量机SV多类SVM算法nSVM本质上是两类分类器.n常用的SVM多值分类器构造方法有: 文本分类II-支持向量机SVSVM package 文本分类II-支持向量机SVSVM packagenJoachims recently applied SVM to text categorization, and compared its performance with other classification methods using theReuters-21578 corpus. His results show that SVM outperformed all the other methods tested in his experiments. SVMlight (software in C): n台湾大学资讯系林智仁(Lin Chih-Jen)开发的libSVM,可下载C+源代码:n中科院计算所,文本分类系统(KNN 和 SVM)文本分类II-支持向量机SVOutlinenSVM的理论基础n线性判别函数和判别面n最优分类面n支持向量机nSVM的研究与应用

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!