信息检索与数据预处理.ppt

上传人:w****2 文档编号:16989742 上传时间:2020-11-06 格式:PPT 页数:15 大小:373.84KB
收藏 版权申诉 举报 下载
信息检索与数据预处理.ppt_第1页
第1页 / 共15页
信息检索与数据预处理.ppt_第2页
第2页 / 共15页
信息检索与数据预处理.ppt_第3页
第3页 / 共15页
资源描述:

《信息检索与数据预处理.ppt》由会员分享,可在线阅读,更多相关《信息检索与数据预处理.ppt(15页珍藏版)》请在装配图网上搜索。

1、信息检索与数据预处理 主讲人:王栋 2012年 4月 13日 信息检索 信息来源: 1、传统资源 .图书馆纸质书籍期刊。 2、网络资源。 数据库:中国期刊网,超星,书生之家 (图书馆首页 -数据库导航) 搜索引擎: google学术、 google图书( google搜索技巧 ) 新浪共享资料、豆丁网 百度文库、 CSDN、人大经济论坛 各大高校 BBS论坛、 FTP资源 数学中国论坛 国家统计局 维基百科(英文版) 信息检索 信息检索技术: 1、利用搜索引擎,关键词搜索 2、数据库中,利用题名、摘要、作者等分类 搜索 3、从参考文献入手 4、从维基百科(英文版)词条的 reference入

2、手 4、从在该领域有名的教授的论文入手 数据预处理 自 2000年以来,数学建模竞赛题目的数据 提供方式越来越多样( txt文档、 acess数据、 excel数据);数据量越来越庞大; 快速而方便的从提供的数据中,找到我们 所需要使用的数据,就可以为后面的分析 和处理节约时间,而不为提取数据所累; 数据的存储、重用和传递,也是数学建模 竞赛中常常 用到的; 对数据的使用和分析是建模的基础 数据预处理 1、数据提取( Data extraction) 2、数据清洁( Data Cleaning) 3、数据变换( Data Transformation) 4、统计描述( Statistic De

3、scription) 数据提取( Data extraction) ( 1)如果数据较为整齐,则利用 matlab函数直接导入。如 importdata(),xlsread(),load(). ( 2)如果是 txt数据,而且混有字符和数字,一般处理起来 比较麻烦点,则可用 C语言中的 fgets()一行行读出来, 存成字符串再用 atof()函数转化为十进制数,最后重新 存为 txt数据进行处理。 ( 3)熟悉数据库语言的可以利用数据库进行相关操作,再 次不作介绍。 数据提取( Data extraction) Ps: (1)若其中涉及的人工步骤,如各种相同的复制 粘贴较多,则建议还是编写简

4、单的 C语言程序 或者 matlab程序处理。做到采取手动提取和 使用程序、工具软件提取相结合 . (2)尽量将数据存为矩阵形式,方便 matlab的使 用。 (3)为保险起见,要注意 save重要数据和常用数 据。将导入的数据,存成一个 .mat文件,以 后就可以重新 Load进工作区间参与运算。 数据清洁( Data Cleaning) 数据清理要去除源数据集中的噪声数据和 无关数据,处理遗漏数据和清洗脏数据、 空缺值, 识别删除孤立点等。 数据清洁( Data Cleaning) Noisy Data 噪声是一个测量变量中的随机错误和误差。 一般我们直接剔除这些异常值。 例: 数据清洁(

5、 Data Cleaning) Incomplete Data 数据的不完整可能由于数据在收集、来源、 整理等过程中造成的数据的缺失。 (1)忽略缺失值 (2)人工凭经验填写缺失值 (3)使用该部分数据的均值填充 (4)利用回归等方法填写一个最有可能的值 (5)利用 SPSS中分析 -缺失值分析 数据清洁( Data Cleaning) Inconsistent Data 由于数据来源,收集标准等的不同导致相同 属性的数据不同表现形式。 例 1: A数据库对产品质量等级划分列为一等 品,二等品,三等品; B数据库则划分为 A 级, B级, C级。 例 2:武大的一周从周日开始到周六 我们学校的

6、一周从周一开始到周日 数据变换( Data Transformation) 平滑化:消除数据中的噪声影响(回归方法) 标准化: 归一化: X Y m in ( ) m a x ( ) m in ( ) XX Y xx 统计描述( Statistic Description) 1、查看均值 mean、中位数 median,标准差 std, 极差 range 2、峰度 kurtosis,正态分布的峰度为 3,若 2 比 3 大得多,表示分布有沉重的尾巴,说明样本中 含有较多远离均值的数据,因而峰度可以用作 衡量偏离正态分布的尺度之一。 3、偏度 skewness,偏度反映分布的对称性 .其值 大于

7、 0 称为右偏态,此时数据位于均值右边的 比位于左边的多;反之,称为左偏态;而值接 近于 0则可认为分布是对称的 统计描述( Statistic Description) 4、直方图 hist 5、数据拟合,利用 cftool Ps:以上数据预处理方法只是对数据的简单 描述,更深入的内容可以参看数据挖掘技 术和多元统计分析。 references 1 杨文霞 ,数学建模培训之数据的预处理 ,武汉理 工大学理学院 ,2009.7.11 2 872 3元昌安等,数据挖掘原理与 SPSS Clementine应 用宝典,电子工业出版社 . 4徐从富,数据预处理技术,浙江大学人工智 能研究所 5司守奎,算法大全, 201205 6

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!