决策树算法在商标分类中的应用

上传人：l**** 文档编号：74586808 上传时间：2022-04-14 格式：DOCX 页数：6 大小：243.69KB

收藏版权申诉举报下载

第1页 / 共6页

第2页 / 共6页

第3页 / 共6页

下载文档到电脑，查找使用更方便

20 积分

下载资源

资源描述：

《决策树算法在商标分类中的应用》由会员分享，可在线阅读，更多相关《决策树算法在商标分类中的应用（6页珍藏版）》请在装配图网上搜索。

1、人工智能原理姓名：成军学好：510061813论文题目：决策树算法在商标分类中的应用中文摘要：决策树一般都是自上而下的来生成的。每个决策或事件（即自然状态）都可能引出两个或多个事件，导致不同的结果，把这种决策分支画成图形很像一棵树的枝干。本文将使用决策树算法对给定的商标进行分类。其中有三大类商标数据，每大类使用五分之三的数据进行训练，使用五分之二的数据进行测试。我们应用Java和MySQl数据库进行测试。用c4.5算法构造决策树。最终对数据进行准确率计算。关键词：决策树分类商标测试Title: Decision tree algorithm of the application for

2、 trademark classification Abstract: The decision tree is commonly top-down to generate. Each decision or events (namely natural state) are likely to elicit two or more events, lead to different results, put this decision branch loser graphics is like a tree branches. This article will use the decisi

3、on tree algorithm for given the trademark of classification. There are three kinds of trademark data, each of the groups using three fifths of the data to train, use two fifths of the experimental data. We use Java and MySQL database testing. Use c4.5 decision tree algorithms construction. Finally,

4、calculate the data accuracy. Keywords: Decision tree classification brand test引言：机器学习一般分为3种类型：有监督的、无监督的以及强化学习【1】。有监督学习问题涉及从它的输入和输出的实例中学习一个函数。对于完全可观察的环境，智能体总能够观察到它的行动所带来的影响，因此有监督学习是可行的，否则会困难一些。无监督学习问题涉及在未提供明确的输出值的情况下，学习输入的模式。纯粹的无监督学习智能体无法学习要做什么，因为它没有信息说明什么能构成正确的行动或者所期望的状态。强化学习问题，是三类问题中最普遍的一个。强化学习是从

5、强化物（起加强作用的事物）中进行学习，而不是根据教师所说的应该做什么进行学习。正文：决策树方法是挖掘分类规则的有效方法，通常包括两个部分：树的生成，开始时所有的数据都在根节点，然后根据设定的标准选择测试属性，用不同的测试属性递归进行数据分割。树的修剪，就是除去一些可能是噪音或异常的数据。基于信息熵的ID3算法、C45算法都能有效地生成决策树，建决策树的关键在于建立分支时对记录字段不同取值的选择。选择不同的字段值使划分出来的记录子集不同影响决策树生长的快慢及决策树的结构，从而可寻找到规则信息的优劣。可见，决策树算法的技术难点就是选择一个好的分支取值。利用好的取值产生分支可加快决策树的生长，更重要

6、是产生好结构的决策树，并可得到较好的规则信息。相反，若根据一个差的取值产生分支，不但减慢决策树的生长速度，而且使产生的决策树分支过细、结构差，从而难以发现有用的规则信息。随着训练样本集中样本个数的不断增多(即样本集规模不断扩大)，训练样本集在主存中换进换出就耗费了大量的时间，严重影响了算法效率。因此使算法能有效处理大规模的训练样本集已成为决策树算法研究的一个重要问题，也是目前国内对决策树算法研究的热点。本文利用决策树C4.5算法来解决图像的分类问题。现在我们引用下c4.5算法的实例【2】。C4 .5 算法是构造决策树分类规则的一种算法，它是ID3算法的扩展。ID3算法只能处理离散型的描述性属性

7、而C4.5算法还能够处理描述属性取值为连续型的情况。选取节点的标准是最大信息增益率，具体的算法步骤如下:Stepl：数据源进行数据预处理，将连续型的属性变量进行离散化处理形成决策树的训练集(如果连续取值的属性则忽略);(1)根据原始数据，找到该连续型属性的最小取值a0大取值an+1;(2) 在区间a ，b插人n数值等分为n+l个小区间;(3 )分别以ai ,i=1,2, ,n。为分段点，将区间a0,an+1划分为两个子区间: a0,aj， (ai+1,an+1)对应该连续型的属性变量的两类取值，有n种划分方式;Ste p2 :计算每个属性的信息增益和信息增益率;(1 )计算属性A的信息增益

8、Gain(A)信息增益 Gain(A)的计算和ID3算法中的完全一致;(2 )计算属性A的信息增益率Gain一Ratio( A)Gain一Ratio(A)=Gain(A)/I(A )对于取值连续的属性而言，分别计算以ai(i=1,2,n)为分割点，对应分类的信息增益率，选择最大信息增益率对应的ai，作为该属性分类的分割点。选择信息增益率最大的属性，作为当前的属性节点，得到决策树的根节点。Step3:根节点属性每一个可能的取值对应一个子集，对样本子集递归地执行以上Step2过程，直到划分的每个子集中的观测数据在分类属性上取值都相同，生成决策树。Step4:根据构造的决策树提取分类规则，对新

9、的数据集进行分类。类似算法的主要思想都是，逐步找出能够为各个层次的分类提供最大信息量的变量，由此可以确定决策树从根到枝，再从枝到叶的结构。决策树生成的过程也就是对训练数据集迸行分类的过程。现在分析给出的商标，建立数据库。并建立表：其中id是主键。属性包括：circle、rectangle、triangle、connect、object。分别是圆、长方形、三角形、组合行、所属分类。接着用3/5的数据作为训练集，2/5的数据集作为测试集。对所有商标进行定义属性，并保存到数据库中。如下：由于数据量比较大，这里就不全部列出，接着用sql语句对数据查询，比如要查询从id1id100中circle属性都是

10、1的个数是多少：Select sum(circle)From brandWhere id0 and circle=1接着根据c4.5算法计算得到：GainRati circle(A)= 0.23212131GainRati Rectange(A)= 6.44123121GainRati triangle(A)= 2.91892837GainRatioconnect(A)=5.32412321结论：根据c4.5算法，增益率高的作为分界点，则我们可以得到决策树的结构：Rectangle R=0 R=1Object2connect C=1 C=0Object3Object1最后对训练集和测试测试集进

11、行准确率计算：在数据库中使用查询：Select *From brandWhere rectangle=0 and object=2用球的值除以测试集的60，就是正确率。最终的结果是：类第一类第二类第三类正确率71.76%78.65%86.6%训练集接着用同样的方法对测试集进行测试，得：类第一类第二类第三类正确率58.65%63.21%70.65%参考文献：【1】姜哲，金奕江等.人工智能一种现代方法（第二版）M人民邮电出版社，2010（8）。【2】盛文，杨江平，柳健。一种基于纹理元灰度模式统计的图像纹理分析方法。J，电子学报 2000(4)。【3】罗森林，辛子英，冯磊。基于C4.5的敏感图像检测方法。J北京理工大学学2006（5）。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

决策树算法在商标分类中的应用

最新文档

相关资源

相关搜索