数据挖掘技术及案例分析

上传人:guoc****ang 文档编号:124115140 上传时间:2022-07-24 格式:PPT 页数:48 大小:4.87MB
收藏 版权申诉 举报 下载
数据挖掘技术及案例分析_第1页
第1页 / 共48页
数据挖掘技术及案例分析_第2页
第2页 / 共48页
数据挖掘技术及案例分析_第3页
第3页 / 共48页
资源描述:

《数据挖掘技术及案例分析》由会员分享,可在线阅读,更多相关《数据挖掘技术及案例分析(48页珍藏版)》请在装配图网上搜索。

1、数据挖掘技术及案例分析数据挖掘技术及案例分析太普软件数据挖掘数据挖掘FAQFAQ WhatWhat HowHow WhoWho WhichWhich WhyWhy数据挖掘过程数据挖掘过程应用案例应用案例总结总结 数据挖掘数据挖掘FAQFAQWhat?What?Why?Why?How?How?Which?Which?Who?Who?数据挖掘数据挖掘FAQFAQWhatWhatWhatWhat?数据挖掘数据挖掘FAQFAQWhatWhatv分析能力的八个等级分析能力的八个等级数据挖掘数据挖掘FAQFAQWhatWhat数据挖掘数据挖掘FAQFAQWhatWhat数据挖掘数据挖掘FAQFAQWhat

2、Whatv数据分析能力的演进数据分析能力的演进数据挖掘数据挖掘FAQFAQWhatWhatv数据挖掘是从大量数据(包括文本)中挖掘数据挖掘是从大量数据(包括文本)中挖掘出出隐含的、先前未知的、对决策有潜在价值隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策建立用于决策支持的模型,提供预测性决策支持的支持的方法、工具和过程方法、工具和过程。数据挖掘数据挖掘FAQFAQWhyWhyWhyWhy?数据挖掘数据挖掘FAQFAQWhyWhyv企业内产生了大量业务数据,这些数据和由企业内产生了大量业务数据

3、,这些数据和由此产生的信息是企业的财富,它如实记录了此产生的信息是企业的财富,它如实记录了企业运作的本质状况。企业运作的本质状况。v数据挖掘有助于企业发现业务的趋势,揭示数据挖掘有助于企业发现业务的趋势,揭示已知的事实已知的事实,预测未知的结果。预测未知的结果。v“数据挖掘数据挖掘”已成为企业保持竟争力的必要已成为企业保持竟争力的必要方法。方法。数据挖掘数据挖掘FAQFAQWhyWhyv分析和执行能力远跟不上信息的增长分析和执行能力远跟不上信息的增长数据挖掘数据挖掘FAQFAQWhichWhichWhichWhich?数据挖掘数据挖掘FAQFAQWhichWhichv 分类与回归 分类预测 数

4、值预测v 聚类分析v 关联规则v 时序预测v 偏差检测数据挖掘数据挖掘FAQFAQWhichWhichv 分类与回归 分类预测 数值预测v 聚类分析v 关联规则v 时序预测v 偏差检测数据挖掘数据挖掘FAQFAQWhichWhichv 分类与回归 分类预测 数值预测v 聚类分析v 关联规则v 时序预测v 偏差检测数据挖掘数据挖掘FAQFAQWhichWhichv 分类与回归 分类预测 数值预测v 聚类分析v 关联规则v 时序预测v 偏差检测数据挖掘数据挖掘FAQFAQWhichWhichv 分类与回归 分类预测 数值预测v 聚类分析v 关联规则v 时序预测v 偏差检测数据挖掘数据挖掘FAQFA

5、QWhichWhichv 分类与回归 分类预测 数值预测v 聚类分析v 关联规则v 时序预测v 偏差检测数据挖掘数据挖掘FAQFAQWhoWhoWhoWho?数据挖掘数据挖掘FAQFAQWhoWhov企业业务分析人员企业业务分析人员v系统设计及开发人员系统设计及开发人员数据挖掘数据挖掘FAQFAQHowHowHowHow?数据挖掘数据挖掘FAQFAQHowHowv商业智能及数据挖掘工具商业智能及数据挖掘工具 BO BIEE Plus Cognos MicroStrategy SPSS Eviews SASv数据挖掘过程数据挖掘过程数据挖掘数据挖掘FAQFAQ数据挖掘过程数据挖掘过程 数据取样数

6、据取样 数据探索数据探索 模式发现模式发现 预测建模预测建模 模型评估模型评估应用案例应用案例总结总结 数据挖掘过程数据挖掘过程数据挖掘过程数据挖掘过程数据挖掘过程数据挖掘过程数据取样数据取样v根据预测任务抽取数据样本,是基于对本次根据预测任务抽取数据样本,是基于对本次数据挖掘任务深刻理解基础上完成的数据挖掘任务深刻理解基础上完成的v数据取样时要严把质量关数据取样时要严把质量关v抽样数据必须在足够范围内有代表性抽样数据必须在足够范围内有代表性 v数据常分为训练、测试和验证数据集数据常分为训练、测试和验证数据集数据挖掘过程数据挖掘过程数据探索数据探索v抽样数据中是否存在空值、异常值抽样数据中是否

7、存在空值、异常值?v有没有什么明显的规律和趋势有没有什么明显的规律和趋势?v有没有出现从未设想过的数据状态有没有出现从未设想过的数据状态?v因素之间的相关性如何因素之间的相关性如何?v是否有明显的组差别是否有明显的组差别?数据挖掘过程数据挖掘过程模式发现模式发现v在数据集中发现模式,比如关联规则,分在数据集中发现模式,比如关联规则,分类模型,序列模式等类模型,序列模式等 v对问题解决的要求进一步量化对问题解决的要求进一步量化 v重新审视数据样本,是否满足目标需要重新审视数据样本,是否满足目标需要v过滤与挖掘目标无关的记录或属性过滤与挖掘目标无关的记录或属性v数据结构和内容进一步调整数据结构和内

8、容进一步调整数据挖掘过程数据挖掘过程预测建模预测建模v预测建模是对采样数据轨迹或状态进行概括预测建模是对采样数据轨迹或状态进行概括v反映采样数据内部结构的一般特征反映采样数据内部结构的一般特征v与采样数据的具体结构并不完全吻合与采样数据的具体结构并不完全吻合v模型的具体化就是预测公式,公式可以产生与模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值观察值有相似结构的输出,这就是预测值 v同一采样数据可以用多种数据分析方法和模型进行同一采样数据可以用多种数据分析方法和模型进行分析分析v模型评估目的:从多个模型中找出最优模型模型评估目的:从多个模型中找出最优模型v模型评估

9、:模型评估:1 1)直接用原来样本数据进行检验,)直接用原来样本数据进行检验,2 2)另外找一批新数据检验另外找一批新数据检验 v评价指标:评价指标:均方误差;平均绝对误差;平方和误差均方误差;平均绝对误差;平方和误差;平均绝对误差;平均绝对误差数据挖掘过程数据挖掘过程模型评估模型评估数据挖掘过程数据挖掘过程模型评估模型评估v不管黑猫、白猫,抓到老鼠就是好猫。不管黑猫、白猫,抓到老鼠就是好猫。v建模必须建立在对业务充分理解的基础上。建模必须建立在对业务充分理解的基础上。数据挖掘数据挖掘FAQFAQ数据挖掘过程数据挖掘过程应用案例应用案例 水质预测水质预测分类与回归分类与回归 流量预测流量预测聚

10、类分析聚类分析 信用分析信用分析关联规则关联规则 变形预测变形预测时序模式时序模式 灾变预测灾变预测偏差检测偏差检测 水产养殖生产结构优化水产养殖生产结构优化总结总结 应用案例应用案例v案例均基于太普数据挖掘(案例均基于太普数据挖掘()实现)实现v太普数据挖掘简介:太普数据挖掘简介:太普数据挖掘套件(TIP DM Suite,TipDM)是广州太普软件自主研发的一个数据挖掘工具,基于SOA架构,使用JAVA语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型(目前已集成数十种预测算法和分析技术,基本覆盖了国外主流挖掘系统支持的算法,用户也可以嵌入其它自己开发的任何算法),使用TipDM

11、操作接口进行数据挖掘工作。工具支持数据挖掘流程所需的主要过程,完成包括对数据进行预处理,包括空值处理、降维处理、离散处理,因子分析、主成分分析、抽样、过滤等,创建、训练、评估模型,预测,修改模型参数,误差分析等一系列功能。应用案例应用案例水质预测水质预测(分类与回归分类与回归)v利用利用BPBP神经网络算法,进行分类预测神经网络算法,进行分类预测v案例描述:案例描述:输入:温度、盐度、输入:温度、盐度、PHPH值和溶解氧的含量值和溶解氧的含量 输出:水质类别输出:水质类别 算法原理案例演示应用案例应用案例交通量预测交通量预测(聚类分析聚类分析)v利用利用k-Meansk-Means聚类算法,进

12、行短期交通量预测聚类算法,进行短期交通量预测v案例描述:案例描述:公路隧道短期交通量是隧道监控系统的核心参数,车辆交通流量的大小直接决定隧道内污染严重程度。主要考虑因素为:time为时间段,weather为天气情况,traffic为交通量。案例演示应用案例应用案例个人信用数据关联规则分析个人信用数据关联规则分析v案例描述:案例描述:通过银行提供的个人信用数据,利用通过银行提供的个人信用数据,利用AprioriApriori算法,进行关联规则算法,进行关联规则分析分析 关联程度主要通过支持度关联程度主要通过支持度(Support)(Support)和置信度和置信度(Confidence)(Con

13、fidence)衡量衡量案例演示应用案例应用案例基坑变形预测基坑变形预测(时序模式时序模式)v利用利用GM(1,1)GM(1,1)灰色系统,进行时序预测灰色系统,进行时序预测v案例描述:案例描述:输入:历史基坑实际监测变形量输入:历史基坑实际监测变形量 输出:未来基坑变形量输出:未来基坑变形量 案例演示应用案例应用案例水产养殖丰欠年灾变预测水产养殖丰欠年灾变预测v灾变是指系统行为特征量超过某个阈值而使系统的灾变是指系统行为特征量超过某个阈值而使系统的活动产生异常的后果。年灾变预测是对灾变发生的活动产生异常的后果。年灾变预测是对灾变发生的年份进行预测。年份进行预测。v案例描述:案例描述:鳗鲡人工

14、繁殖尚未成功,养殖所需鳗苗全靠天然捕捞。每年鳗苗的丰欠直接影响到养殖规模和效益。影响鳗苗丰欠的因素很多且有的尚不确定,因而属于灰色系统。采用灰色年灾变预测方法,对台湾鳗鲡苗种资源的丰欠年份进行预测。应用案例应用案例水产养殖丰欠年灾变预测水产养殖丰欠年灾变预测v 实现步骤:实现步骤:1.取定原始序列:年份、鳗鲡苗捕获量。2.确定灾变阈值,本例取年产鳗苗大于12t的年份为丰年。3.根据灾变阈值,作灾变映射。4.对灾变映射后的数据序列,建立GM预测模型。5.按模型进行预测。序号1234567891011年份19851986198719881999200020012002200320042005产量8

15、.511.313.59.27.610.512.88.36.913.111.6应用案例应用案例水产养殖生产结构优化水产养殖生产结构优化v应用灰色性线规划,对水产养殖生产结构进行优化应用灰色性线规划,对水产养殖生产结构进行优化v案例描述:案例描述:应用线性规划对鳗鱼的行情进行预测,分析养殖出口规格鳗和大鳗的养殖成本,并对一个养殖面积在一定水面、资金、苗种情况下,养殖两种规格鳗鱼的比例,优化养殖结构,提高经济效益。应用案例应用案例水产养殖生产结构优化水产养殖生产结构优化v对养殖户而言,在一个养殖周期内,各种资源(水对养殖户而言,在一个养殖周期内,各种资源(水体、资金、种苗等)是有限的,如何在有限的资

16、源体、资金、种苗等)是有限的,如何在有限的资源和技术水平条件下,统筹安排,合理规划,达到最和技术水平条件下,统筹安排,合理规划,达到最大经济效益?大经济效益?v设定养殖场面积为设定养殖场面积为100100亩,养殖模式分为规格鳗和亩,养殖模式分为规格鳗和大鳗养殖两种类型,求总水面经济效益最高值。大鳗养殖两种类型,求总水面经济效益最高值。生产两种鳗的成本:规格、吨鱼消耗饲料、塘租、人工生产两种鳗的成本:规格、吨鱼消耗饲料、塘租、人工、药费、机械、吨鱼耗苗种、亩产、上市时间、苗种价、药费、机械、吨鱼耗苗种、亩产、上市时间、苗种价格、成鱼价格格、成鱼价格应用案例应用案例水产养殖生产结构优化水产养殖生产

17、结构优化v实现步骤:实现步骤:1.1.对鳗鲡苗种价格预测对鳗鲡苗种价格预测2.2.对鳗鲡成鱼价格预测对鳗鲡成鱼价格预测3.3.对两种鳗鲡养殖面积进行线性规划,计算符合约束条对两种鳗鲡养殖面积进行线性规划,计算符合约束条件的最优解件的最优解数据挖掘数据挖掘FAQFAQ数据挖掘过程数据挖掘过程应用案例应用案例总结总结 问题回顾问题回顾 挖掘过程总结挖掘过程总结 总结总结问题回顾问题回顾v如何进行股票短期预测?如何进行股票短期预测?v如何进行个人信用评级?如何进行个人信用评级?v如何进行交叉销售,获取最大利益?如何进行交叉销售,获取最大利益?v在各种资源有限前提下,如何合理规划,达到在各种资源有限前提下,如何合理规划,达到最大经济效益?最大经济效益?总结总结问题回顾问题回顾v 数据挖掘关键点:数据挖掘关键点:挖掘目标挖掘目标评价指标(影响因子)评价指标(影响因子)建模样本建模样本预测模型预测模型交叉验证模型验证模型训练模型预测数据探索数据预处理挖掘目标样本抽取评价指标误差分析最优模型总结总结数据挖掘过程数据挖掘过程

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!