数据挖掘——第二章认识数据



《数据挖掘——第二章认识数据》由会员分享,可在线阅读,更多相关《数据挖掘——第二章认识数据(112页珍藏版)》请在装配图网上搜索。
1、单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,,第2章认识数据,,,,一·数据对象,,数据集由数据对象构成,,个数据对象代表一个实体,,例子,,销售数据库 sales database:客户/顾客,商店物品, sales,,医学数据库:,,s,treatments,,大学数据库: students,, professors,, courses,,又称为样本,事例,实例,数据点,对象,元组 tuples.,,数据对象由属性来描述,,Database rows ->data objects; columns -attributes.,,,
2、,属性「,,属性 Attribute(or维度,特征,变量):一个数据字段,表示,,个数据对象的某个特征,,E. g, customer-ID, name, address,,类型:,,名词性 Nominal,,元的,,数字的 Numeric:数量的,,Interval-scaled,,· Ratio-scaled,,,,属性类型,,,名词性 Nomina:类别,状态,r“名目,,whie olor=auburn, black, blond, brown, grey, red.,,Hai,,婚姻状态,职业 occupation, ID numbers, zip codes,,只有2个状态的名词
3、性属性(0and1),,对称二元 Symmetric binary同样重要的两相,,e.g., gender,,非对称 Asymmetric binary:非同等重要,,eg,医疗检查( positive vs negative),,惯例 Convention: assign1 to most important,,outcome(e.g, HIV positive),,·顺序的 Ordinal,,值有一个有意义的顺序排序)但连续值之间的大小未知,,size={smal, medium,arge,等级,军队排名,,,,数值属性的类型,,数量 Quantity( integer or real-
4、valued),,区间mera,,在某个同等大小的一个尺度单位上 Measured on a,,scale of equal-sized units,,值有序,,E.g., temperature in C or F, calendar dates,,没有真正的零点,,Ratio,,有真正的零点,,可以讲值是被测量单位一个数量级(0Kwe,,s high a,,eg,温度在开尔又长度计数货币的数量,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。