ecel 数据挖掘指南 工具箱

上传人:jin****ng 文档编号:185385984 上传时间:2023-02-03 格式:DOCX 页数:9 大小:569.76KB
收藏 版权申诉 举报 下载
ecel 数据挖掘指南 工具箱_第1页
第1页 / 共9页
ecel 数据挖掘指南 工具箱_第2页
第2页 / 共9页
ecel 数据挖掘指南 工具箱_第3页
第3页 / 共9页
资源描述:

《ecel 数据挖掘指南 工具箱》由会员分享,可在线阅读,更多相关《ecel 数据挖掘指南 工具箱(9页珍藏版)》请在装配图网上搜索。

1、数据挖掘工具箱 DataAnlysis TOOLbox version 2开发团队:朱远平 陈伟指导老师:周怡、,一 、前言本软件设计是由周怡老师为我们选的课题。首先感谢周怡老师给我们一个学习和实 践的机会,在开发过程中为我们提供了宝贵意见。该设计是在周怡老师的悉心指导下和 大力支持下完成的。在周怡老师精心点拨下,我们对 DataAnlysis TOOLbox 做了相应 的改进。excel是比较好的一个数据管理软件,目前很多业务数据都是存储在excel表中, excel 也提供了一部分数据处理的函数,但是对于数据挖掘和对数据的进一步分析,那 远是不够了,为此我们提供一个以excel为载体,增加

2、excel对数据的处理能力的工具 箱,工具箱力求简单化,人性化,可视化,无需编码,无需专业理论,就可以进行数据 分析。与第一个版本相比较作了以下变化:1. 对用户界面做了改进。2增加了对字符数据类型的处理。3. 增加数据预处理(数据降维处理)。4. 对数据归一化作了改进,用户可以根据自己的实际情况,设置数据的归一范围。5. 对Kmeans增加了模糊聚类来初始聚类中心和自动搜索K值,有效的提高了分 类的准确率,增加了类别剖析图,便于用户分析聚类的特征。6. 增加支持向量机的多分类和回归处理,并且实现了智能的参数寻优,用户可以 让系统自动寻找最优参数,即使用户不熟悉该理论也可以使用该工具箱。温馨提

3、示:如果已经配置过该工具箱的环境的电脑,不需要重新配置环境。一,安装说明Step1 解压 DataAnalysisStep2 在 DataAnalysis 目录下找到 runtimewin32。将 “解压的目录+runtimewin32” 添 加到-我的电脑一高级一环境配置一Path配置环境,r in32:文件g)編辑g)查看)收藏 工具I帮助0):后退-QQ搜索0文件夹產?:地址)E: 11 a t aAnal y s i s run time w i n32文件和立件夹任务金D创建一个新文件夹 箱将逵个文件夹发布到* Web跆共李此文件夹其它垃置gruntimefTlclcomTlO. l

4、illmsvcpTO. ill7.0. 9466. 0Microsoft ITiwcomutil. lillR.mclcornrTiainTlO. iillsvcpTl. ill7. 10. 3077. 0mclrncrrtTlO. iillmwcornutil. iillmsvciTO. illT. 0. 9466.0Mi crosoft C Rutl.rnsvciTl. ill7. 10. 3052. 4Mi crosot C Run.m clxlrnai nT 10. iillI u. | msvcpGO. iillP-A.V 6. 0. 8972. 0| M i : ro soft Q

5、mwwmmgr. dl设置2)新逹编辑di变量值ComSpecFF_NLi_HDST_C.i1BER_LiF_PR.C:WIHB0WSSyStem32cmd. exeNO2OSPathfimdowEjlTC: WINDOWS sys t em32; C: WINDOWS;.环境变呈I启动和故障嗾复萦绕启动,玉统失败和调试信息vStep3点击DataAalysis目录下的 “注册.bat”注册DLL。可用加载宏(A):Step5使用工具箱。在Data.xls下提供了相应模型的测试的数据供界面和相应功能二, 使用简介该工具箱是应用于Excel的数据挖掘插件,主要有两大类:1处理分类和识别问题;2是

6、处 理函数逼近回归预测;分类识别有:Kmeans聚类,层次聚类,概率神经网络,支持向量机 函数逼近回归预测:线性神经网络,(严格和非严格)径向基神经网络,广义回归神经 当然RBF也有用于处理分类问题。Kmeans 聚类和层次聚类,是一种无监督的学习算法,主要用于分类,概率神经网络和支持 向量机用于识别(1)Kmeans聚类需要确定分类的个数,默认值2,与层次聚类相比可以处理大量数据的分 类。输入参数:Q训练数据(必须选择数据的是按行读取还是按列读取,为了确定选择分类的个 数)Q标记(是指每个样本(或者每条记录)的名称,没有标记将默认为1 2 3 -序 号作为每条样本记录的标记)Q变量间距离(默

7、认是欧氏距离)Q寻找质心循环次数Q分类的个数Q初始质心的选择(默认是随机的选取质心,用户也可以自己初始质心,需要提供K个质心)输出参数:QSilhousette图形Q聚类质心的位置Q累加所有样本到一个质心的距离和Q累加所有质心到到一个样本的距离和Q分类效果评价系数(越接近1分类效果越好)(2)层次聚类与Kmeans聚类相比层次聚类无需确定分类的个数,由于要画出聚类树,所 以它处理的数据量比较小,样本数太大,可能导致图形里会缺少部分样本。输入参数:Q训练样本(默认是按行读取)Q变量间的距离(默认是欧式距离)Q变量间的连接(默认是最短距离法)Q数据标准化(z = (x-mean(x)./std(x

8、)Q标记(每条记录的名称,如ID号,不填按123 序号)输出参数:Q分类效果评价系数(越接近1分类效果越好)Q聚类树(3)概率神经网络:与前面的聚类相比,聚类不需要有先知知识,但是神经网络,要对训 练的数据有一有认识(训练的样本有训练的目标),概率神经网络是用对过去的认识去分析 新的事物,是有导师学习算法,是一种性能良好的分类神经网络,概率神经网络具有全局优 化特点。;其实质是基于贝叶斯最小风险准则发展而来的一种并行算法。准则发展而来的一种并行算法。 概率神经网络分四层分别为输入层,模式层,求和层,及决策层。其中模式层是径向基函数。输入参数:Q训练样本(默认是按行读取)Q目标集(每个训练样本对

9、应的类别,类别标记不能用出现0)Q变量间的连接(默认是最短距离法)Q测试集(需要识别的待测样本)Q分布密度(默认1,一般是在0到1之间,可以通过调节该参数来寻找最合适的分类模式,一般小分类效果比较好)Q数据归一化(将样品数据通过y=(x-minX)/(maxX-minX)将样本数据映射到-11之间,归一化可以加快网络得收敛性)输出参数:Q识别结果(4)支持向量机:支持向量机是在高维特征空间使用线性假设空间的学习系统,它的由一 个来自最优化理论学习算法训练,该算法实现了由统计学习理论导出的学习偏置。它的主要 思想是建立一个超平面作为决策平面,使得不同类别的隔离边缘最大化。同样支持向量机是 通过对

10、过去的数据认识来认识未知的数据。这里只处理二分类数据。输入参数:Q训练样本(默认是按行读取)Q目标集(每个训练样本对应的类标记,一般取0和1,至少有一类别标记是1,不要使用字符串,文字作为类别标记)Q测试集(需要识别的待测样本)Q核函数(默认是线性函数)QRBFSigmaValue (在径向基函数默认为1)QPolyorderValue (主要是针对多项式函数的参数值,默认是3)Q数据归一化(将样品数据通过y=(x-minX)/(maxX-minX)將样本数据映射到-11之间)输出参数:Q识别结果Q分类剖析图(只限于二维数据)人工神经网络,是模仿生物的学习过程,通过学习寻找合适的权值、阈值的过

11、程。在复杂系 统的建模问题上表现出了它的优越性。(5)线性神经网络:,神经元有线性的激活函数y=purelin(wp+b),主要用来处理线性问题, 无限逼近直线,但是无法处理非线性的。线性神经网络是属于有导师学习算法 ,采用 Widrow-Hoff学习规则(最小均方误差Least Mean Square Error),通过调节权值使得均方误差 不断减小,最终使得均方误差最小。输入参数:Q训练样本(默认是按行读取)Q目标集(每个训练样本对应的目标值)Q变量间的连接(默认是最短距离法)Q测试集(需要的预测样本)Q数据归一化(将样品数据通过y=(x-minX)/(maxX-minX)将样本数据映射到

12、-11之间,归一化可以加快网络得收敛性)输出参数:Q最小均方误差Q预测样本结果(6)径向基神经网络:径向基神经网络分为两种,一种是确定的严格的(数据量较少的时 候),另一是不神经元个数不确定的一般用于大量数据,径向基神经网络的学习算法属于有 导师的学习算法,是一种性能良好的前馈神经网络,具有收敛速度快,网络结构简单,逼近 性能良好,不存在局部极小的优点,能很好的拟合非线性问题,只要隐含层神经元的数量足 够多,它可以以任意精度逼近任何单值的连续函数。径向基神经网络分为三层,输入层,隐 含层,输出层,隐含层节点传递函数径向基函数,输出层节点传递函数的线性函数。输入参数:Q训练样本Q目标集(每个训练

13、样本对应的目标值)Q测试集(需要的测试样本)Q测试集目标(需要的测试样本对应的目标值)Q预测集(需要的预测样本)Q数据归一化(将样品数据通过y=(x-minX)/(maxX-minX)將样本数据映射到-1 1之间,归一化可以加快网络得收敛性)Q误差指标(默认值为0)Q分布密度(默认值为1,可以通过调节分布密度来减小误差,一般该参数越大, 误差越小)Q最大神经元个数(针对神经元个数不确定的RBF神经网络,默认为样本个数)Q显示训练过程(默认显示图形二20次更新一次图形)输出参数:Q最小均方误差Q预测样本结果(7)广义回归神经网络:广义回归神经网络学习算法属于有导师的学习算法,广义回归神 经网络,

14、是一种基于非线性回归理论的前馈式神经网络,通过激活神经元来逼近函数。广义 神经网络也分为三层,输入层,隐含层,输出层,隐含层节点的传递函数径向基函数,输出 层节点传递函数为线性函数,广义回归神经网络有着良好的逼近,分类和学习速度较快的优 势。输入参数:Q训练样本Q目标集(每个训练样本对应的目标值)(3预测集(需要的预测样本)Q光滑因子(默认值为1,可以通过调节分布密度来减小误差,一般该参数越小, 误差越小)(5数据归一化(将样品数据通过y=(x-minX)/(maxX-minX)将样本数据映射到-11之间,归一化可以加快网络得收敛性)输出参数:Q最小均方误差Q预测样本结果三,存在的问题 该工具

15、箱是第一个版本,暂时不支持字符串类型的数据,对于聚类还缺少,类与类之间 的对比分析,作进一步挖掘。支持向量机,暂时只支持二分类问题。该工具箱没有做自动参 数寻优,所以需要人工自己设定参数,和建立预处理模型。对可视化支持还不够。第一次运 行速度相对要慢点,这是语言天生的缺陷。在下一个版本将增加对字符串的类型数据的处理能力,提高工具箱的智能化,增加支持 向量机的多分类问题。四,错误调试u.規bb允1进度条运行着,突然不动了,关掉进度条,重新按确定按钮运行即可读取方式0.31531V Silhouetted.聚类质心懂置累计类间就质心前和可能出现的错误:厂点劉各个協心和按掉确定,继续运行就可以2加载程序时出现Runtime Error。可能是Excel本身的错误, 了,或者可以考虑重新安装EXCEL3出现无图像窗口,是因为在读取图标时,找不到ICO导致的错误,关掉窗口,重新运行就 可以了

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!