数据挖掘工程化实践

上传人:d****1 文档编号:151998292 上传时间:2022-09-14 格式:DOCX 页数:2 大小:50.01KB
收藏 版权申诉 举报 下载
数据挖掘工程化实践_第1页
第1页 / 共2页
数据挖掘工程化实践_第2页
第2页 / 共2页
资源描述:

《数据挖掘工程化实践》由会员分享,可在线阅读,更多相关《数据挖掘工程化实践(2页珍藏版)》请在装配图网上搜索。

1、一、前言每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞 工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手 段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外), 我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日 之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的 方法,只是其实现工具发生了变化而已,本质的东西还在。引入发布近20年前 的CRISP-DM数据挖掘标准规范模型,供大家共享,希望能有人喜欢。二、框架三、详述3.1 业务理解(Business Understanding)最初的阶段集中在理

2、解项目目标和从业务的角度理解需求,同时将这个知识 转化为数据挖掘问题的定义和完成目标的初步计划。3.2 数据理解(Data Understanding)数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数 据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集 去形成隐含信息的假设。3.3 数据准备(Data Preparation)数据准备阶段包括从未处理的数据中构造最终数据集的所有活动。这些数据 将是模型工具的输入值。这个阶段的任务能执行多次,没有任何规定的顺序。任 务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。3.4 建模(Modeling)在这

3、个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数 值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上 有特殊要求,因此需要经常跳回到数据准备阶段。3.5 评估(Evaluation)到这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始 最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保 模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被 充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。3.6 部署(Deployment)通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得 的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生 简 单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例 中,这个阶段是由客户而不是数据分析人员承担部署的工作。四、总结从以上流程和规范我们可以看到,算法实现过程,其实只占了数据挖掘的一 部分,真正要想实现数据挖掘,并达到数据挖掘的目标,我们需要做的事情还有 很多。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!