数据挖掘学习心得体会

上传人:卷*** 文档编号:119512110 上传时间:2022-07-15 格式:DOCX 页数:14 大小:14.84KB
收藏 版权申诉 举报 下载
数据挖掘学习心得体会_第1页
第1页 / 共14页
数据挖掘学习心得体会_第2页
第2页 / 共14页
数据挖掘学习心得体会_第3页
第3页 / 共14页
资源描述:

《数据挖掘学习心得体会》由会员分享,可在线阅读,更多相关《数据挖掘学习心得体会(14页珍藏版)》请在装配图网上搜索。

1、数据挖掘学习心得体会【篇一:数据挖掘心得体会】 心得体会 这次数据挖掘实验结束了,期间我们小组明确分工并积极去完毕,虽然有点辛苦,但我感觉充实而有收获感! 根据教师给的某些资料,我们决定采用sql server 中的northwind数据库里的数据作为我们的实验数据。根据表order details中的数据,我们分别根据productid和orderid字段,并结合我们规定的最小支持度阀值对数据进行筛选。依次筛选出1项频繁集、2项频繁集和3项频繁集,其中还会使用游标的方式来遍历2项集与3项集的候选集,分别选出2项频繁集和3项频繁集。 由于数据较多,因此过程比较复杂,要编写诸多的查询语句,建立许

2、多数据表,涉及临时表。开始不懂得则操作,但通过我们各自多次反复的建表与查询,逐渐的理解和有了自己的思路。特别是在运用游标的措施进行遍历这块,由于我们比较陌生而不理解,操作时一时无法实现成果,但通过我们在网上查询理解有关知识,最后得以解决。 通过该次实验,使我对数据库的操作更加纯熟,并且还使我对课本上的“挖掘频繁模式”这块知识有了较好的掌握,此后我会多做实验,使我在实际操作过程中学得更好!【篇二:数据挖掘与分析心得体会】 正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已

3、经并且将继续在我们从数据时代大步跨入信息时代的历程中做出奉献。 1、数据挖掘 数据挖掘应当改对的的命名为:“从数据中挖掘知识”,但是后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(kdd)”的同义词,而另某些人只是把数据挖掘视为知识发现过程的一种基本环节! 由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源涉及数据库、数据仓库、web、其她信息存储库或动态地流入系统的数据。作为知识发现过程,它一般涉及数据清理、数据集成、数据变换、模式发现、模式评估和知识表达六个环节。 数据挖掘解决数据之多,挖掘模式之有趣,使用技术之大量,应用范畴之广泛

4、都将会是前所未有的;而数据挖掘任务之重也始终并存。这些问题将继续鼓励数据挖掘的进一步研究与改善! 2、数据分析 数据分析是指用合适的记录措施对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以具体研究和概括总结的过程。 数据分析有极广泛的应用范畴。典型的数据分析也许涉及如下三个步: 1、摸索性数据分析:当数据刚获得时,也许杂乱无章,看不出规律,通过作图、造表、用多种形式的方程拟合,计算某些特性量等手段摸索规律性的也许形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 2、模型选定分析,在摸索性分析的

5、基本上提出一类或几类也许的模型,然后通过进一步的分析从中挑选一定的模型。 3、推断分析:一般使用数理记录措施对所定模型或估计的可靠限度和精确限度作出推断。 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可协助人们作出判断,以便采用合适行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,涉及从市场调研到售后服务和最后处置的各个过程都需要合适运用数据分析过程,以提高有效性。 由上可见,数据挖掘和数据分析虽然概念上层次清晰,作用上分工明确(数据分析重要

6、以上数理记录为主,数据挖掘重要是挖掘算法为主)。但很明显的是,数据挖掘必须借助数据分析的有关措施来挖掘出有效的,对目的应用故意义的模式和知识。或者可以说:数据挖掘也可以是数据分析的一种! 在这样一种信息迅速膨胀的时代,数据挖掘和分析都与大量数据打交道。两者都离不开一种80年代后期兴起的一种高档数据分析技术:数据仓库和联机分析解决。 3、数据仓库 数据仓库是一种从多种数据源收集的信息存储库,寄存在一致的的模式下,并且一般驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。为便于决策,数据仓库中的数据环绕主题组织。数据存储从历史的角度提供信息,并且一般是汇总的

7、。数据仓库提供某些数据分析能力,称作联机分析解决(olap)。 数据仓库有如下四种核心特性: 面向主题的:数据仓库环绕某些重要主题,如顾客、供应商、产品、和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的平常操作和事务解决。因此,数据仓库一般排除对于决策无用的数据,提供特定主题的简要视图。 集成的:一般,构造数据仓库是将多种异构数据源,使用数据清理和数据集成技术,保证命名商定,编码构造,属性度量等的一致性。 时变的:数据存储从历史的角度提供信息。数据仓库中的核心构造都隐式或显式地涉及时间元素。 非易失的:数据仓库总是物理地分离寄存数据,这些数据源于操作环境下的应用数据。由于这种分离,

8、数据仓库不需要事务解决、恢复和并发控制机制。一般,它只需要两种数据访问操作:数据的初始化妆入和数据访问。 顺便提一下联机事务解决(oltp)和联机分析解决(olap)的重要区别。 4、分类及算法 分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过度类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特性分析、客户满意度分析、客户的购买趋势预测等,如一种汽车零售商将客户按照对汽车的喜好划提成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从

9、而大大增长了商业机会。 分类算法重要有决策树归纳、贝叶斯分类、使用if-then规则分类、神经网络、支持向量机等。 5、聚类分析 聚类分析是把一组数据按照相似性和差别性分为几种类别,其目的是使得属于同一类别的数据间的相似性尽量大,不同类别中的数据间的相似性尽量小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。 常用的算法有: 划分措施:k-均值算法,k-中心点算法。 层次措施:层次聚类算法、平衡迭代归约和算法、chameleon(变色龙)、 基于密度的措施:dbscan算法,optics算法,denclue算法。 基于网格的措施:sting(记录信息网格),cliq

10、ue 6、广泛应用 作为一种应用驱动的领域,数据挖掘融汇来自其她某些领域的技术。这些领域涉及记录学、机器学习、数据库和数据仓库系统,以及信息检索。数据挖掘研究与开发的多学科特点大大增进了数据挖掘的成功和广泛应用。 数据挖掘已有许多成功的应用,如商务智能,web搜索,生物信息学,卫生保健信息学,金融,数字图书馆和数字政府等。 7、学习总结 数据挖掘技术已经形成很广泛的应用空间,而目前jdmp的版本也在完善当中,大多数数据挖掘开发工具涌现出来。多种有关的框架如hadoop也如雨后春笋纷纷浮现。这些现象的浮现,正是由于数据挖掘的发展会有越来越广泛的天空。然而数据挖掘还是有诸多需要面临并且急需解决的问

11、题?而我们也但愿其越来越深刻的研究和改善。 对于数据挖掘的学习,还是要注重算法的研究和开发。目前我还很欠缺这一块知识。涉及记录学、概率论,机器学习等。数据挖掘是个繁复的过程,需要我们长此以往的研究!【篇三:数据挖掘感想】 数据挖掘感想 通过学习一种学期的数据挖掘课对数据挖掘有了一定的理解,也掌握了,理解了某些数据挖掘中用到的重要的算法。在这个数据膨胀的大数据时代我们需要筛选,查询数据,解决数据。我们看到的听到的都是数据,在这互联网时代数据更多,信息诸多。但是有些网站例如百度,google,雅虎等为我们的学习生活带来了诸多便利。我们为了改对的更有效的运用和解决数据必须要运用数据挖掘技术,由于有了

12、这技术我们后来的数字化生活变得更以便,不会由于数据多,信息多而感到反感。因此我真正的体会到了数据挖掘的优越性。同步我学习某些算法过后也感觉到了其复杂性,由于数据挖掘算法众多,掌握起来比较困难。 我们重要学习了贝叶斯分类算法,决策树分类算法等算法,这些是比较简朴并且运用比较广泛的算法。也学习了数据的概念,数据理解涉及收集原始数据、数据描述、数据摸索分析和数据质量描述。我们一方面收集大量的数据然后对此进行数据描述分类数据,然后优化净化数据,并对此进行分类整顿,保存查询,搜索数据等。 贝叶斯算法:贝叶斯分类基于贝叶斯定理,贝叶斯定理是由18世纪概率论和决策论的早起研究者thomas bayes发明的

13、,故用其名字命名为贝叶斯定理。分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简朴贝叶斯分类法可以与决策树和通过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也已体现出高精确率和高速度。 目前研究较多的贝叶斯分类器重要有四种,分别是:naive bayes、tan、ban和gbn。 朴素贝叶斯分类是一种十分简朴的分类算法,思想基本是这样的:对于给出的待分类项,求解在此项浮现的条件下各个类别浮现的概率,哪个最大,就觉得此待分类项属于哪个类。 贝叶斯定理(bayes theorem)是概率论中的一种成果,它跟随机变量的条件概率以及边沿概率分布有关。在有些有关概率的解说中,贝叶斯定理可以

14、告知我们如何运用新证据修改已有的见解。 一般,事件a在事件b(发生)的条件下的概率,与事件b在事件a的条件下的概率是不同样的;然而,这两者是有拟定的关系,贝叶斯定理就是这种关系的陈述。 贝叶斯公式提供了从先验概率p(a)、p(b)和p(b|a)计算后验概率p(a|b)的措施:p(a|b)=p(b|a)*p(a)/p(b) ,p(a|b)随着p(a)和p(b|a)的增长而增长,随着p(b)的增长而减少,即如果b独立于a时被观测到的也许性越大,那么b对a的支持度越小。 ? 举例:一种天气估计问题 ? 两个假设h: h1=晴天、h2=非晴天 ? 可观测到的数据:温度高+和温度低- ? 先验知识p(h

15、) ? 北京晴天的概率0.99:p(h1)=0.99? 非晴天0.01: p(h2)=0.01 ? 观测到的概率p(d|h): ? ? p(温度高 | 晴天) = 0.85 p(温度低 | 非晴天) = 0.93 ? 问题:目前观测到温度低,判断与否非晴天? ? 极大似然计算 ? p(非晴天 | 温度低) p(温度低|非晴天) = 0.93 ? p(晴天 | 温度低) p(温度低|晴天) = 0.15 ? 答案:非晴天 决策树: 决策树:训练集:数据的集合,用于生成树(模型) 测试集:用于测试树(模型)的性能 决策树作用:重要就是训练数据除去脏数据 ? 通过训练集 ? 算法指引下 ? 生成决策

16、树 ? 新数据进行划分 ? 否则是“三拍”决策 数据大量产生,技术的成熟提供基本直接运用算法,运用第一种方式也许在数据量少的时候计算速度与第二种相比不会有太大的差别,但如果数据量很大,后者的优越性将很明显。后来在接触到apriori算法时候里用看到算法会用到某些剪枝手段减少计算机运算量的时候忍不住拍案叫绝。 此外,各式各样的记录软件的背后均有着大量的contributors将自己的算法程序包分享到网上,供后来人更便捷的调用使用。互联网的这种集体智慧的共享发明方式让后来人站在前人的肩膀上,走的更远。但是在调用这些算法的过程中还是要对算法自身有某些原理上的理解,算法和数据构造是钥匙和锁,我们在实际

17、操作的过程中还需要根据具体的状况灵活和合适的使用,会在背面的分享里细说。 信息也是产品 许多公司所拥有的客户信息不仅仅对自己有价值,同步对她人也同样具有价值。如今诸多的淘宝店铺之间也有了诸多的消费者数据的共享。互联网也变化了品牌和品牌之间的关系,一种拥有诸多青少年小朋友数据的公司完全可以将自己的数据分享给做小朋友食品的公司,或者更进一步,分享彼此所拥有的平台。 2.数据挖掘 for “actionable”insightsdiscovery 数据挖掘有诸多不同的名称,例如kdd(knowledge discovery in database),或者bi(businessintelligence),预测建模(predictive model)等,但针对我们业务感受,我更乐意把数

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!