暨南大学并行计算实验室MapReduce研究现状

上传人:huo****ian 文档编号:248368784 上传时间:2024-10-23 格式:PPT 页数:18 大小:256KB
收藏 版权申诉 举报 下载
暨南大学并行计算实验室MapReduce研究现状_第1页
第1页 / 共18页
暨南大学并行计算实验室MapReduce研究现状_第2页
第2页 / 共18页
暨南大学并行计算实验室MapReduce研究现状_第3页
第3页 / 共18页
资源描述:

《暨南大学并行计算实验室MapReduce研究现状》由会员分享,可在线阅读,更多相关《暨南大学并行计算实验室MapReduce研究现状(18页珍藏版)》请在装配图网上搜索。

1、*,Click to edit the title text format,Click to edit the outline text format,Second Outline Level,Third Outline Level,Fourth Outline Level,Fifth Outline Level,Sixth Outline Level,Seventh Outline Level,Eighth Outline Level,Ninth Outline Level,*,Click to edit the title text format,Click to edit the out

2、line text format,Second Outline Level,Third Outline Level,Fourth Outline Level,Fifth Outline Level,Sixth Outline Level,Seventh Outline Level,Eighth Outline Level,Ninth Outline Level,暨南大学并行计算实验室,MapReduce,研究现状,专 业:计算机软件与理论,姓 名:周敏 丁光华,指导教师:周继鹏 教授,摘要,MapReduce,研究,调试、监控等,优化、扩展等,常用,API,Hadoop,改造,数据挖掘项目,R

3、edpoll,Canopy,k-means,Naive bayes,SVM,调试,标准输出,标准出错,Web,显示,(50030,50060,50070),NameNode,JobTracker,DataNode,TaskTracker,日志,本地重现,:Local Runner,DistributedCache,中放入调试代码,Profiling,目的:查性能瓶颈,内存泄漏,线程死锁等,工具:,jmap,jstat,hprof,jconsole,jprofiler mat,jstack,对,JobTracker,的,Profile,对各,slave,节点,TaskTracker,的,Prof

4、ile,对各,slave,节点某,Child,进程的,Profile(,可能存在单点执行速度过慢,),监控,目的:监控集群或单个节点,I/O,内存及,CPU,工具:,Ganglia,调优点,(1),I/O,Shuffle,调优点,(2),数据压缩,推测,性执行,(,同时执行同一,Task,杀死运行慢的,),同一节点的,Child,重用,jvm,重写,Partitioner,使分布到各,Reducer,的数据均匀,设置堆空间大小,常用,API,Mapper,Reducer,Writable,ComparableWritable,InputFormat,OutputFormat,Partition

5、er,Comparator,DistributedCache,Streaming(bash/python),Hadoop,改造,JobTracker,与作业调度耦合性太强,JobHistory,应独立为一个,jvm,进程,逻辑不应与,JobTracker,耦合太强,在,HDFS,之上整合,MPI,统一作业调度,Shuffle,过程只需一次,I/O,单块磁盘失效导致整个节点失效问题,(,改,DFSClient),Hadoop,改造,文件系统兼容,posix,使,Map,的,key,输出不排序,只分区,NameNode,单点故障问题,RPC,支持大数据,(,如文件,),传输,集群资源分配,权限管理

6、,大规模数据挖掘,:Redpoll,文本数据挖掘,分布式分词,分布式向量空间模型,距离度量,语料,搜狗新闻,20 news group,wikipedia,前提:,假定一个属性值对分类的影响独立于其他属性的值。(类条件独立),朴素贝叶斯分类工作过程,每个数据样本用一个,n,维特征向量 表示,分别描述对,n,个属性 样本的,n,个度量,假设有,m,个类 。给定一个未知的数据样本,X,,分类法将预测具有最高后验概率(条件,X,下)的类。即是找最大化的 。根据贝叶斯定理有,朴素贝叶斯分类,P(X),对所有类为常数,最大化 ,对 的考虑分析:等概率,或,类条件独立的朴素假定:,,(,k=1,,,2,,

7、,n,)可以由训练样本估值,是分类属性,则根据样本估值,是连续值属性,则通常假定其服从高斯分布,因而,朴素贝叶斯分类,(,续,),Canopy,大容量,高维数据集聚类,使用两步聚类,不同的距离度量,节省计算时间,适用范围较广,K-means,EM,GAC,大规模支持向量机,解的稀疏性及问题的凸性,将大规模的原问题分解成小规模的子问题,迭代求解子问题,直到收敛至原问题的解,.,选块算法,分解算法,序列最小最优化法,(sequential minimal optimization,SMO),并行实现,Thinking in MapReduce,B,A,D,A,A,C,B,C,B,C,D,Group,Co-group,Function,Stream Flow,Filter,Filter,Aggregate,谢谢,!,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!