韩家炜数据挖掘概念与技术第2章ppt课件

上传人:94****0 文档编号:240682208 上传时间:2024-04-29 格式:PPTX 页数:44 大小:501.61KB
收藏 版权申诉 举报 下载
韩家炜数据挖掘概念与技术第2章ppt课件_第1页
第1页 / 共44页
韩家炜数据挖掘概念与技术第2章ppt课件_第2页
第2页 / 共44页
韩家炜数据挖掘概念与技术第2章ppt课件_第3页
第3页 / 共44页
资源描述:

《韩家炜数据挖掘概念与技术第2章ppt课件》由会员分享,可在线阅读,更多相关《韩家炜数据挖掘概念与技术第2章ppt课件(44页珍藏版)》请在装配图网上搜索。

1、变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分第二章 了解你的数据2014.10第二章了解你的数据2014.101变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分目录2.1数据对象和属性类型2.2数据的基本统计描述2.3数据可视化2.4衡量数据相似性和相异性2.5总结目录2.1数据对象和属性类型2变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个

2、重要组成部分2.1DataObjectsandAttributeTypes2.1.1WhatisanAttribute?2.1.2NominalAttributes2.1.3BinaryAttributes2.1.4OrdinalAttributes2.1.5NumericAttributes2.1.6DiscreteversusContinuousAttributes2.2BasicStatisticalDesciptionsofData2.3DataVisualization2.4MeasuringDataSimilarityandDissimilarity2.5Summary2.1Dat

3、aObjectsandAttribute3变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.1数据对象和属性类型数据集是由数据对象构成的。一个数据对象表示一个实体在销售数据库中,对象可以是顾客、商品或者销售记录。在医学数据库中,数据对象可以是病人。在大学数据库中,数据对象可以是学生、教授和课程。数据对象用属性来描述。数据对象可以是一个抽样、举例、实例、数据点或者对象。如果数据对象存放在数据库中,它们是数据元组。即数据库中行对应数据对象,列对应于属性。2.1数据对象和属性类型数据集是由数据对象构成的。一个数

4、4变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.1.1什么是属性?一个属性是一个域,表示一个数据对象的一个特征。“属性”、“维度”、“特征”和“变量”这些词在语义上是可交换的。“维度”通常被用在数据仓库中,机器学习中倾向于使用“特征”;统计学倾向使用“变量”,数据挖掘和数据库经常使用“属性”。属性描述一个顾客对象,如:顾客ID,姓名,地址。对给定的属性的可观察值被称为观察。刻画一个给定对象的属性集合被称为属性向量(或特征向量)。2.1.1什么是属性?一个属性是一个域,表示一个数据对象5变电站电气主接线

5、是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分包含单个属性的数据分布被称为单变量的分布;包含2个属性的被称为二变量的分布。属性的类型是有属性可取的值决定的,有名词、二进制型、顺序值或者数值类型。包含单个属性的数据分布被称为单变量的分布;包含2个属性的被6变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.1.2名词属性名词属性的值是事物的标号或者名称。每一个值表示类别、编码或者状态。因此名词属性被称为是分类。值没有次序信息。在计算机领

6、域,也可以称为枚举型。举例如:发色和婚姻状态。发色可以是黑色,棕色,红色,灰色,白色。婚姻状态可以是单身、已婚、离异或者丧偶。这些都是名词属性。2.1.2名词属性名词属性的值是事物的标号或者名称。每一7变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分尽管名词属性是标号或者名称,但也可以是数值的表示形式。比如,发色,可以用0表示黑色,1表示棕色等。顾客ID可以是数字。但是,在这种情况,数字并不被当成数值来使用。因为名词属性不包含任何顺序信息也非数值型,所以不用终止或者平均数去衡量这类属性。可以使用属性最多出现

7、的值,“众数”来做中心性测量。尽管名词属性是标号或者名称,但也可以是数值的表示形式。比如8变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.1.2二进制属性二进制属性是只有两个类别或状态:0和1.0一般表示属性缺失,1表示存在。二进制属性也即bool型,两个状态表示真和假。举例。如,病人对象的吸烟属性,1表示吸烟,0表示不吸烟。再比如,病人的某个医学检查结果有两种情况。1表示结果为阳性,0表示为阴性。如果二进制属性的两个状态是同等有价值的具有相同的权重,则为对称的。2个属性被标为1或者0都可以,比如性别属

8、性的两个值男和女。如果两个状态不是同等重要的,则为非对称的。比如HIV检查的结果呈阴性和阳性。通常,用1表示更重要的通常是更稀少的结果,其他的用0表示。2.1.2二进制属性二进制属性是只有两个类别或状态:0和9变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.1.4次序属性次序属性具有次序或者级别的意义。但是相邻值的级别未知。举例:例如饮料尺寸,可以是“小杯”,“中杯”,“大杯”。值有顺序的意义,但是不能分辨中杯比大杯大多少。再比如,成绩等级A+,A,A-,B+职称:助理,副教授,教授次序属性被用来衡量无

9、法客观衡量的属性,用主观的评估定质量。在调查中常用来排序。比如,参与者作为顾客,他们的满意度可以是:0:非常不满意,1有点不满意,2中立 3满意 4很满意2.1.4次序属性次序属性具有次序或者级别的意义。但是相10变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分把数值数据离散化,把它们按照值的范围分类,也可以得到次序属性的数据。次序属性的中心性可以用众数和中值来衡量,但是不能计算平均数。名词属性、二进制属性和次序属性都是定性的。它们在描述一个对象的特征时不给出具体的尺寸和数量。值通常是一个词表示类别,即使以

10、整数的方式表现,也不是表示数量。把数值数据离散化,把它们按照值的范围分类,也可以得到次序属11变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.1.5数值型属性数值型属性是定量的,是可测量的数值,为整数或实数。分为间隔尺度和比例尺度。2.1.5数值型属性数值型属性是定量的,是可测量的数值,为12变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分间隔尺度属性间隔尺度使用同等大小的单元来衡量。间隔尺度属性有大小,可以是正,0

11、或者负值。除了能对属性值排序,还可以比较和衡量不同值的差值大小。举例:温度属性是间隔尺度。20摄氏度高于15摄氏度。日历也是间隔尺度,以及年份。Celsius和Fahrenhet是两个温度,没有绝对0点,并且我们能计算温度的差值,但是不能说一个值是另一个值的多少倍,例如10摄氏度比5摄氏度温暖2倍。间隔尺度是数值型的,可以计算平均值,中值和众数。间隔尺度属性间隔尺度使用同等大小的单元来衡量。间隔尺度属性13变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分比例尺度比例尺度属性是数值型的,有固定的0值。如果一个

12、测量是比例尺度,则可以以比率来衡量两个值,也可以计算值的差值,以及中值,均数和众数。例如:Kelvin温度有一个真正的0点。另外,计数属性,经验年数,单词个数,体重,身高,速度,货币都是比例尺度。比例尺度比例尺度属性是数值型的,有固定的0值。14变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.1.6离散和连续属性离散属性有有限的或者可数的值集合,可能不能表示为整数。例如发色,是否吸烟,医学检查结果,饮料尺寸,都有有限的值,因此是离散的。离散值可能是数值型的,比如二进制的0和1,年龄的0到110.一个属性

13、是可数无限的如果可能的值集合是无限的但是值和自然数有一一对应的关系。比如,顾客ID是可数无限的。邮政编码也是。2.1.6离散和连续属性离散属性有有限的或者可数的值集合,15变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分如果值不是离散的,则是连续的。数值属性或者连续属性是含义上是一样的。如果值不是离散的,则是连续的。数值属性或者连续属性是含义上是16变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.2数据的基本统计描述

14、为了更好的做数据预处理,对数据有整体的了解很关键。基本的统计描述能鉴别数据,分辨出噪声和离群点。2.2数据的基本统计描述为了更好的做数据预处理,对数据有整17变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.2.1中心性度量:平均数,中位数,众数假定我们有一些属性X,例如薪资,有一系列数据对象的记录。令x1,x2,.xN是属性X的N个观察到的值。如果我们画出薪资的点图,绝大部分的值会落在哪里呢?这就是数据的中心性问题。衡量中心性的测量有均值、中值、众数和中列数。2.2.1中心性度量:平均数,中位数,众数假

15、定我们有一些18变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分平均数:最常用和最有效的测量是数据的(算术)平均数。计算公式是:平均数:19变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分有时候,每一个xi有一个关联的权重wi,权值表示相应值的重要性、显著性或者发生频率。这时候,平均值的计算公式为:称为加权算术平均值或者加权平均。有时候,每一个xi有一个关联的权重wi,权值表示相应值的重要20变电站电气主接线是指变电站的

16、变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分平均值对极端值比较敏感。比如一个公司的员工平均薪水可能被少数高新的经理提高很多。同样,班级的平均分也可能被少数的低分拉低很多。为了处理这种由少数极端值带来的效果,可以使用削减均值,即去掉极端大和极端小的值之后的平均值。比如,把薪水排序,然后去掉2%的最大值和最小值。应该避免削减太多(比如20%),这会导致数据信息的丢失。平均值对极端值比较敏感。比如一个公司的员工平均薪水可能被少数21变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力

17、系统接线组成中一个重要组成部分对于偏斜(不对称)的数据,使用中值(中位数)是更好的中心性测量。中值是一系列排序好的数据的中点的值。该值把数据集分成2个部分,一半值大的,一半值小的。在概率统计中,中值一般用在数值型数据上。这里,中值可以扩展到次序属性上。将数据集的N个值按升序排列。如果N为奇数,中值即是排序集合的中点的值;如果N为偶数,中值可以是中点的2个值中的任意值。如果X是数值型数据,传统上中值取两个中点数的均值。对于偏斜(不对称)的数据,使用中值(中位数)是更好的中心性测22变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组

18、成中一个重要组成部分23变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分24变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分众数众数是另一个衡量中心性的测量。众数是一系列数据中出现频率最高的值。众数可以是定性的也可以是定量的属性。有可能好几个不同的值都出现大量的频率,导致众数不止一个。众数有1个、2个、3个的分别称为unimodal(单峰值),bimodal(二峰值),trimodal(三峰值).一个极端的例子,如果每隔

19、数据值都仅出现一次,则没有众数。众数众数是另一个衡量中心性的测量。众数是一系列数据中出现频率25变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分举例:例子2.6中有2个众数:52和70.对于单峰值的数值型数据来说,数据是适度偏斜的(不对称),有一下的经验性关系:这表明,如果平均数和中值已知,适度倾斜的单峰频率曲线的众数可以近似得到。举例:例子2.6中有2个众数:52和70.26变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成

20、部分中列数中列数是数据集中最大值和最小值的平均值。可以用来评估数值型数据的中心性趋势。利用sql语言的聚集函数max()和min()很容易计算。举例:例2.6中,中列数是:30+110/2=70.中列数中列数是数据集中最大值和最小值的平均值。可以用来评估数27变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分数据的对称和偏斜在对称的单峰频率曲线数据分布中,平均数,中值和众数都在同样的中点值上。实际应用中,绝大部分都不是对称的。如果众数的值小于中值,称为正偏斜;如果众数的值大于中值,称为负偏斜。见图2.1.数据

21、的对称和偏斜在对称的单峰频率曲线数据分布中,平均数,中值28变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分韩家炜数据挖掘概念与技术第2章ppt课件29变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.2.2数据分散性的度量:极差、四分位数、方差、标准差、四分位差1、极差、四分位数、四分位差令x1,x2,xN是某个数值属性X的一系列观察,数据集的极差表示的是最大值和最小值的差。假设数据按照属性X以升序排列。想象我们可以

22、挑选特定的数据点,这样可以把数据分割成大小相等的连续数据集,如图2-2.数据点称为分位点。分位点是数据分布上有规律率的间隔的数据点,将其分成相等大小的连续的数据集。2.2.2数据分散性的度量:极差、四分位数、方差、标准差、30变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分韩家炜数据挖掘概念与技术第2章ppt课件31变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分给定数据分布的第K个q-分位点x,是至多k/q的数据值小于

23、x,至多q-k/q的数据值大于x,k是大于0小于q的整数。共有q-1个q-分位点。2-分位点是把数据分布分割成较小值和较大值两半的数据点。即中位数。4-分位点是把数据分布分成4个等量大小的3个数据点,每一个部分表示数据分布的1/4.它们被称为四分位数。给定数据分布的第K个q-分位点x,是至多k/q的数据值小于32变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分100-分位数更通常被称为百分位数,它们将数据集分成100个大小相等的连续集合。中位数,四分位数和百分位数是使用最广泛的分位数。分位数反应了分布的中心

24、,散布以及形状。第1个四分位数,表示为Q1,是第25个百分位点。它把数据值最低的25%切断。第3个四分位数,表示为Q3,是第75个百分位数。它切断了数据值低的75%。100-分位数更通常被称为百分位数,它们将数据集分成100个33变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分Q1和Q3的距离,简单反应了数据中心的一半数据的范围。这个距离被称为四分位差。被定义为:Q1和Q3的距离,简单反应了数据中心的一半数据的范围。这个距34变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任

25、务。变电站的主接线是电力系统接线组成中一个重要组成部分五数概括、箱子图、离群点单个的数值分散测量在描述偏斜的分布时都不够有效。在对称的分布中,中值把数据分成大小相等的2部分。但对偏斜的数据来说并非如此。因此,使用Q1,Q3和中值一起会更加有信息量。一个通用的鉴别可疑的离群点的规则是挑选出落在Q3以上或者Q1以下1.5*IQR以上的数据值。Five-numbersummary是包含了中值,Q1,Q3,最小值和最大值的分布,按次序表示为:Minimum,Q1,Median,Q3,Maximum.箱线图是常用的描述数据分布的方法。五数概括、箱子图、离群点单个的数值分散测量在描述偏斜的分布时35变电站

26、电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分韩家炜数据挖掘概念与技术第2章ppt课件36变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分箱线图中:箱子的长度是四分位差中值是箱子中间的线箱子外面的两根须是观察的最小值和最小值。当处理相当数量的观察时,单个的绘出潜在的离群点是值得的。箱线图中为了处理这个,须被扩展到最大值和最小值仅当这些值小于1.5*IQR时。否则的话,须的末端是1.5*IQR处。箱线图的计算时间复杂度是o(n

27、logn).箱线图中:37变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分方差和标准差方差和标准差是测量数据分散度的。比较低的标准差表示数据观察倾向于靠近均值。高标准差表示数据值分布在一个比较大的范围区间。N个观察x1,x2,xN的方差:其中,是均值。是标准差。Ps:方差的公式有问题?方差和标准差方差和标准差是测量数据分散度的。比较低的标准差表38变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分标准差的基本属性:1、标准

28、差测量的是数据偏离均值的发散程度,因此只有在均值接近数据中心的时候才考虑。2、标准差为0只有在所有数据值都相等时才发生。根据Chebyshevs不等式,至少(1-1/k2)*100%的数据不会远离均值的K个标准差的范围。所以,标准差是一个很好的衡量数据分散度的指标。标准差的基本属性:39变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.2.3数据基本统计特征的图形化描述分位数点图直方图散点图和数据相关性2.2.3数据基本统计特征的图形化描述分位数点图40变电站电气主接线是指变电站的变压器、输电线路怎样与电

29、力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分分位数图分位数图41变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.3数据可视化2.3.1面向像素的可视化技术2.3.2几何投影可视化技术2.3.3基于图标的可视化技术2.3.4分层可视化技术2.3.5复杂数据和关系的可视化2.3数据可视化2.3.1面向像素的可视化技术42变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.4衡量数据相似性和相异性2.4.1数据相异性矩阵2.4.2名词属性的相邻性度量2.4.3二进制属性的相邻性度量2.4.4数值型数据的相异性:Minkowski距离2.4.5次序属性的相邻性度量2.4.6混合类型的相异性2.4.7余弦相似性2.4衡量数据相似性和相异性2.4.1数据相异性矩阵43变电站电气主接线是指变电站的变压器、输电线路怎样与电力系统相连接,从而完成输配电任务。变电站的主接线是电力系统接线组成中一个重要组成部分2.5总结2.5总结44

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!