数据挖掘技术与应用:使用pandas进行数据预处理课件

上传人:冬**** 文档编号:253206755 上传时间:2024-12-01 格式:PPTX 页数:44 大小:1.04MB
收藏 版权申诉 举报 下载
数据挖掘技术与应用:使用pandas进行数据预处理课件_第1页
第1页 / 共44页
数据挖掘技术与应用:使用pandas进行数据预处理课件_第2页
第2页 / 共44页
数据挖掘技术与应用:使用pandas进行数据预处理课件_第3页
第3页 / 共44页
资源描述:

《数据挖掘技术与应用:使用pandas进行数据预处理课件》由会员分享,可在线阅读,更多相关《数据挖掘技术与应用:使用pandas进行数据预处理课件(44页珍藏版)》请在装配图网上搜索。

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,数据,挖掘,技术与,应用,数据挖掘技术与应用,1,清洗数据,目录,合并数据,2,标准化数据,3,转换数据,4,小结,5,1清洗数据目录合并数据2标准化数据3转换数据4小结5,横向堆叠,即将两个表在,X,轴向拼接在一起,可以使用,concat,函数完成,,concat,函数的基本语法如下。,pandas.,concat,(objs,axis=0,join=outer,join_axes=None,ignore_index=False,keys=N

2、one,levels=None,names=None,verify_integrity=False,copy=True),常用参数如下所示。,堆叠合并数据,1.,横向表堆叠,参数名称,说明,objs,接收多个,Series,,,DataFrame,,,Panel,的组合。表示参与链接的,pandas,对象的列表的组合。无默认。,axis,接收,0,或,1,。表示连接的轴向,默认为,0,。,join,接收,inner,或,outer,。表示其他轴向上的索引是按交集(,inner,)还是并集(,outer,)进行合并。默认为,outer,。,join_axes,接收,Index,对象。表示用于其他

3、,n-1,条轴的索引,不执行并集交集运算。,横向堆叠,即将两个表在X轴向拼接在一起,可以使用concat,参数名称,说明,ignore_index,接收,boolean,。表示是否不保留连接轴上的索引,产生一组新索引,range(total_length),。默认为,False,。,keys,接收,sequence,。表示与连接对象有关的值,用于形成连接轴向上的层次化索引。默认为,None,。,levels,接收包含多个,sequence,的,list,。表示在指定,keys,参数后,指定用作层次化索引各级别上的索引。默认为,None,。,names,接收,list,。表示在设置了,keys,

4、和,levels,参数后,用于创建分层级别的名称。默认为,None,。,verify_integrity,接收,boolearn,。表示是否检查结果对象新轴上的重复情况,如果发现则引发异常。默认为,False,。,堆叠合并数据,1.,横向表堆叠,参数名称说明ignore_index接收boolean。表示,当,axis=1,的时候,,concat,做行对齐,然后将不同列名称的两张或多张表合并。当两个表索引不完全一样时,可以使用,join,参数选择是内连接还是外连接。在内连接的情况下,仅仅返回索引重叠部分。在外连接的情况下,则显示索引的并集部分数据,不足的地方则使用空值填补,。,当两张表完全一样

5、时,不论,join,参数取值是,inner,或者,outer,,结果都是将两个表完全按照,X,轴拼接起来,。,堆叠合并数据,1.,横向表堆叠,当axis=1的时候,concat做行对齐,然后将不同列名称,使用,concat,函数时,在默认情况下,即,axis=0,时,,concat,做列对齐,将不同行索引的两张或多张表纵向合并。在两张表的列名并不完全相同的情况下,可,join,参数取值为,inner,时,返回的仅仅是列名交集所代表的列,取值为,outer,时,返回的是两者列名的并集所代表的列,其原理示意如,图。,不论,join,参数取值是,inner,或者,outer,,结果都是将两个表完全按

6、照,Y,轴拼接起来,堆叠合并数据,2.,纵向堆叠,concat,函数,使用concat函数时,在默认情况下,即axis=0时,co,append,方法也可以用于纵向合并两张表。但是,append,方法实现纵向表堆叠有一个前提条件,那就是两张表的列名需要完全一致。,append,方法的基本语法如下,pandas.DataFrame.,append,(self,other,ignore_index=False,verify_integrity=False),。,常用参数如下所示。,堆叠合并数据,2.,纵向堆叠,append,方法,参数名称,说明,other,接收,DataFrame,或,Serie

7、s,。表示要添加的新数据。无默认。,ignore_index,接收,boolean,。如果输入,True,,会对新生成的,DataFrame,使用新的索引(自动产生)而忽略原来数据的索引。默认为,False,。,verify_integrity,接收,boolean,。如果输入,True,,那么当,ignore_index,为,False,时,会检查添加的数据索引是否冲突,如果冲突,则会添加失败。默认为,False,。,append方法也可以用于纵向合并两张表。但是append方,主键合并,即通过一个或多个键将两个数据集的行连接起来,类似于,SQL,中的,JOIN,。针对同一个主键存在两张包含

8、不同字段的表,将其根据某几个字段一一对应拼接起来,结果集列数为两个元数据的列数和减去连接键的数量,。,主键合并数据,主键合并,主键合并,即通过一个或多个键将两个数据集的行连接起来,类似于,和数据库的,join,一样,,merge,函数也有左连接(,left,)、右连接(,right,)、内连接(,inner,)和外连接(,outer,),但比起数据库,SQL,语言中的,join,和,merge,函数还有其自身独到之处,例如可以在合并过程中对数据集中的数据进行排序等。,pandas.,merge,(left,right,how=inner,on=None,left_on=None,right_o

9、n=None,left_index=False,right_index=False,sort=False,suffixes=(_x,_y),copy=True,indicator=False),可根据,merge,函数中的参数说明,并按照需求修改相关参数,就可以多种方法实现主键合并,。,主键合并数据,主键合并,merge,函数,和数据库的join一样,merge函数也有左连接(left),参数名称,说明,left,接收,DataFrame,或,Series,。表示要添加的新数据。无默认。,right,接收,DataFrame,或,Series,。表示要添加的新数据。无默认。,how,接收,in

10、ner,,,outer,,,left,,,right,。表示数据的连接方式。默认为,inner,。,on,接收,string,或,sequence,。表示两个数据合并的主键(必须一致)。默认为,None,。,left_on,接收,string,或,sequence,。表示,left,参数接收数据用于合并的主键。默认为,None,。,right_on,接收,string,或,sequence,。表示,right,参数接收数据用于合并的主键。默认为,None,。,left_index,接收,boolean,。表示是否将,left,参数接收数据的,index,作为连接主键。默认为,False,。,r

11、ight_index,接收,boolean,。表示是否将,right,参数接收数据的,index,作为连接主键。默认为,False,。,sort,接收,boolean,。表示是否根据连接键对合并后的数据进行排序。默认为,False,。,suffixes,接收接收,tuple,。表示用于追加到,left,和,right,参数接收数据重叠列名的尾缀默认为,(_x,_y),。,主键合并数据,常用,参数及其说明,参数名称说明left接收DataFrame或Series。表,join,方法也可以实现部分主键合并的功能,但是,join,方法使用时,两个主键的名字必须相同,。,pandas.DataFram

12、e.join(self,other,on=None,how=left,lsuffix=,rsuffix=,sort=False),常用参数说明如下。,主键合并数据,主键合并,join,方法,参数名称,说明,other,接收,DataFrame,、,Series,或者包含了多个,DataFrame,的,list,。表示参与连接的其他,DataFrame,。无默认。,on,接收列名或者包含列名的,list,或,tuple,。表示用于连接的列名。默认为,None,。,how,接收特定,string,。,inner,代表内连接;,outer,代表外连接;,left,和,right,分别代表左连接和右连

13、接。默认为,inner,。,lsuffix,接收,sring,。表示用于追加到左侧重叠列名的末尾。无默认。,rsuffix,接收,string,。表示用于追加到右侧重叠列名的末尾。无默认。,sort,根据连接键对合并后的数据进行排序,默认为,True,。,join方法也可以实现部分主键合并的功能,但是join方法使,数据分析和处理过程中,若,出现两份数据的内容几乎一致的情况,但是某些特征在其中一张表上是完整的,而在另外一张表上的数据则是缺失的,时候,可以用,combine_first,方法进行重叠数据合并,其原理如,下。,重叠合并数据,combine_first,方法,数据分析和处理过程中若出

14、现两份数据的内容几乎一致的情况,但是,combine_first,的具体用法如下。,pandas.DataFrame.,combine_first,(other),参数及其说明如下。,重叠合并数据,combine_first,方法,参数名称,说明,other,接收,DataFrame,。表示参与重叠合并的另一个,DataFrame,。无默认。,combine_first的具体用法如下。重叠合并数据com,1.,堆叠不同时间的订单详情表,订单详情表,meal_order_detail1,、,meal_order_detail2,、,meal_order_detail3,具有相同的特征,但数据时间

15、不同,订单编号也不同,在数据分析过程中需要使用全量数据,故需要将几张表做纵向堆叠操作,。,2.,主键合并订单详情表、订单信息表和客户信息表,订单详情表、订单信息表和客户信息表两两之间存在相同意义的字段,因此需通过主键合并的方式将三张表合并为一张宽表,。,任务实现,1.堆叠不同时间的订单详情表任务实现,1,清洗数据,目录,合并数据,2,标准化数据,3,转换数据,4,小结,5,1清洗数据目录合并数据2标准化数据3转换数据4小结5,记录重复,即一个或者多个特征某几个记录的值完全相同,方法一是利用列表(,list,)去重,,自定义去重函数:,方法二是,利用集合(,set,)的元素是唯一的特性去重,,如

16、,dish_set=set(dishes),比较上述两种方法可以发现,,方法一,代码冗长。,方法二,代码简单了许多,,但,会导致数据的排列发生改变,。,检测与处理重复值,1.,记录重复,def delRep(list1):,list2=,for i in list1:,if i not in list2:,list2.append(i),return list2,记录重复,即一个或者多个特征某几个记录的值完全相同检测与处理,pandas,提供了一个名为,drop_duplicates,的去重方法。该方法只对,DataFrame,或者,Series,类型有效。这种方法不会改变数据原始排列,并且兼具代码简洁和运行稳定的特点,。该,方法不仅支持单一特征的数据去重,还能够依据,DataFrame,的其中一个或者几个特征进行去重操作,。,pandas.DataFrame(Series).,drop_duplicates,(self,subset=None,keep=first,inplace=False),检测与处理重复值,1.,记录重复,参数名称,说明,subset,接收,string,或,s

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!