Chapter9-厦门大学-林子雨-大数据技术原理与应用-第九章-图计算44

上传人:无*** 文档编号:156038175 上传时间:2022-09-25 格式:PPTX 页数:45 大小:2.44MB
收藏 版权申诉 举报 下载
Chapter9-厦门大学-林子雨-大数据技术原理与应用-第九章-图计算44_第1页
第1页 / 共45页
Chapter9-厦门大学-林子雨-大数据技术原理与应用-第九章-图计算44_第2页
第2页 / 共45页
Chapter9-厦门大学-林子雨-大数据技术原理与应用-第九章-图计算44_第3页
第3页 / 共45页
资源描述:

《Chapter9-厦门大学-林子雨-大数据技术原理与应用-第九章-图计算44》由会员分享,可在线阅读,更多相关《Chapter9-厦门大学-林子雨-大数据技术原理与应用-第九章-图计算44(45页珍藏版)》请在装配图网上搜索。

1、大数据技术原理与应用 厦门大学计算机科学系 林子雨 厦门大学计算机科学系 2015年版第九章第九章 图计算图计算(PPT版本号:版本号:2015年年6月第月第1.0版)版)大数据技术原理与应用大数据技术原理与应用http:/ 厦门大学计算机科学系 林子雨 提纲9.1 图计算简介图计算简介9.2 Pregel简介简介9.3 Pregel图计算模型图计算模型9.4 Pregel的的C+API9.5 Pregel的体系结构的体系结构9.6 Pregel的应用实例的应用实例9.7 Pregel和和MapReduce实现实现PageRank算算法的对比法的对比欢迎访问大数据技术原理与应用教材官方网站:h

2、ttp:/ 林子雨 编著,人民邮电出版社ISBN:978-7-115-39287-9大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.1图计算简介 9.1.1传统图计算解决方案的不足之处 9.1.2图计算通用软件大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.1.1传统图计算解决方案的不足之处很多传统的图计算算法都存在以下几个典型问题:(1)常常表现出比较差的内存访问局部性;(2)针对单个顶点的处理工作过少;(3)计算过程中伴随着并行度的改变。针对大型图(比如社交网络和网络图)的计算问题,可能的解决方案及其不足之处具体如下:为特定的图应用定制相应的分布式实现:通用性不好基于现有的

3、分布式计算平台进行图计算:在性能和易用性方面往往无法达到最优使用单机的图算法库:在可以解决的问题的规模方面具有很大的局限性使用已有的并行图计算系统:对大规模分布式系统非常重要的一些方面(比如容错),无法提供较好的支持大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.1.2图计算通用软件一次BSP计算过程包括一系列全局超步(所谓的超步就是计算中的一次迭代),每个超步主要包括三个组件:局部计算局部计算:每个参与的处理器都有自身的计算任务,它们只读取存储在本地内存中的值,不同处理器的计算任务都是异步并且独立的通讯通讯:处理器群相互交换数据,交换的形式是,由一方发起推送(put)和获取(get)

4、操作栅栏同步栅栏同步(Barrier Synchronization):当一个处理器遇到“路障”(或栅栏),会等到其他所有处理器完成它们的计算步骤;每一次同步也是一个超步的完成和下一个超步的开始。图9-1是一个超步的垂直结构图图9 1 一个超步的垂直结构图 大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.2Pregel简介Pregel是一种基于BSP模型实现的并行图处理系统为了解决大型图的分布式计算问题,Pregel搭建了一套可扩展的、有容错机制的平台,该平台提供了一套非常灵活的API,可以描述各种各样的图计算Pregel作为分布式图计算的计算框架,主要用于图遍历、最短路径、PageR

5、ank计算等等大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.3Pregel图计算模型 9.3.1有向图和顶点 9.3.2顶点之间的消息传递 9.3.3Pregel的计算过程 9.3.4实例大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.3.1有向图和顶点Pregel计算模型以有向图作为输入,有向图的每个顶点都有一个String类型的顶点ID,每个顶点都有一个可修改的用户自定义值与之关联,每条有向边都和其源顶点关联,并记录了其目标顶点ID,边上有一个可修改的用户自定义值与之关联在每个超步S中,图中的所有顶点都会并行执行相同的用户自定义函数。每个顶点可以接收前一个超步(S-1)中

6、发送给它的消息,修改其自身及其出射边的状态,并发送消息给其他顶点,甚至是修改整个图的拓扑结构。需要指出的是,在这种计算模式中,边并不是核心对象,在边上面不会运行相应的计算,只有顶点才会执行用户自定义函数进行相应计算大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.3.2顶点之间的消息传递图9 2 纯消息传递模型图 采用消息传递模型主要基于以下两个原因:(1)消息传递具有足够的表达能力,没有必要使用远程读取或共享内存的方式(2)有助于提升系统整体性能 大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.3.3Pregel的计算过程图9 3 一个简单的状态机图Pregel的计算过程是由一

7、系列被称为“超步”的迭代组成的。在每个超步中,每个顶点上面都会并行执行用户自定义的函数,该函数描述了一个顶点V在一个超步S中需要执行的操作。该函数可以读取前一个超步(S-1)中其他顶点发送给顶点V的消息,执行相应计算后,修改顶点V及其出射边的状态,然后沿着顶点V的出射边发送消息给其他顶点,而且,一个消息可能经过多条边的传递后被发送到任意已知ID的目标顶点上去。这些消息将会在下一个超步(S+1)中被目标顶点接收,然后像上述过程一样开始下一个超步(S+1)的迭代过程在Pregel计算过程中,一个算法什么时候可以结束,是由所有顶点的状态决定的,当图中所有的顶点都已经标识其自身达到“非活跃(inact

8、ive)”状态时,算法就可以停止运行大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.3.4实例图9 4 一个求最大值的Pregel计算过程图 大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.4Pregel的C+APIPregel已经预先定义好一个基类Vertex类:template class Vertex public:virtual void Compute(MessageIterator*msgs)=0;const string&vertex_id()const;int64 superstep()const;const VertexValue&GetValue();Ver

9、texValue*MutableValue();OutEdgeIterator GetOutEdgeIterator();void SendMessageTo(const string&dest_vertex,const MessageValue&message);void VoteToHalt();在Vetex类中,定义了三个值类型参数,分别表示顶点、边和消息。每一个顶点都有一个给定类型的值与之对应编写Pregel程序时,需要继承Vertex类,并且覆写Vertex类的虚函数Compute()大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.4Pregel的C+API 9.4.1消息传

10、递机制 9.4.2Combiner 9.4.3Aggregator 9.4.4拓扑改变 9.4.5输入和输出大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.4.1消息传递机制顶点之间的通讯是借助于消息传递机制来实现的,每条消息都包含了消息值和需要到达的目标顶点ID。用户可以通过Vertex类的模板参数来设定消息值的数据类型在一个超步S中,一个顶点可以发送任意数量的消息,这些消息将在下一个超步(S+1)中被其他顶点接收一个顶点V通过与之关联的出射边向外发送消息,并且,消息要到达的目标顶点并不一定是与顶点V相邻的顶点,一个消息可以连续经过多条连通的边到达某个与顶点V不相邻的顶点U,U可以从

11、接收的消息中获取到与其不相邻的顶点V的ID大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.4.2CombinerPregel计算框架在消息发出去之前,Combiner可以将发往同一个顶点的多个整型值进行求和得到一个值,只需向外发送这个“求和结果”,从而实现了由多个消息合并成一个消息,大大减少了传输和缓存的开销在默认情况下,Pregel计算框架并不会开启Combiner功能,因为,通常很难找到一种对所有顶点的Compute()函数都合适的Combiner当用户打算开启Combiner功能时,可以继承Combiner类并覆写虚函数Combine()此外,通常只对那些满足交换律和结合律的操作

12、才可以去开启Combiner功能,因为,Pregel计算框架无法保证哪些消息会被合并,也无法保证消息传递给 Combine()的顺序和合并操作执行的顺序图9-5 Combiner应用的例子大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.4.3AggregatorAggregator提供了一种全局通信、监控和数据查看的机制在一个超步S中,每一个顶点都可以向一个Aggregator提供一个数据,Pregel计算框架会对这些值进行聚合操作产生一个值,在下一个超步(S+1)中,图中的所有顶点都可以看见这个值Aggregator的聚合功能,允许在整型和字符串类型上执行最大值、最小值、求和操作Pr

13、egel计算框架预定义了一个Aggregator类,编写程序时需要继承这个类,并定义在第一次接收到输入值后如何初始化,以及如何将接收到的多个值最后聚合成一个值为了保证得到正确的结果,Aggregator操作也应该满足交换律和结合律大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.4.4拓扑改变Pregel计算框架允许用户在自定义函数Compute()中定义操作,修改图的拓扑结构,比如在图中增加(或删除)边或顶点Pregel采用两种机制来解决这类冲突:局部有序和Handler(1)局部有序:拓扑改变的请求是通过消息发送的,在执行一个超步时,所有的拓扑改变会在调用Compute()函数之前完

14、成(2)Handler:对于“局部无序”机制无法解决的那些操作冲突,就需要借助于用户自定义的Handler来解决,包括解决由于多个顶点删除请求或多个边增加请求(或删除请求)而造成的冲突大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.4.5输入和输出在Pregel计算框架中,图的保存格式多种多样,包括文本文件、关系数据库或键值数据库等在Pregel中,“从输入文件生成得到图结构”和“执行图计算”这两个过程是分离的,从而不会限制输入文件的格式对于输出,Pregel也采用了灵活的方式,可以以多种方式进行输出大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.5Pregel的体系结构 9.

15、5.1Pregel的执行过程 9.5.2容错性 9.5.3Worker 9.5.4Master 9.5.5Aggregator大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.5.1Pregel的执行过程图9-6图的划分图在Pregel计算框架中,一个大型图会被划分成许多个分区,每个分区都包含了一部分顶点以及以其为起点的边一个顶点应该被分配到哪个分区上,是由一个函数决定的,系统默认函数为hash(ID)mod N,其中,N为所有分区总数,ID是这个顶点的标识符;当然,用户也可以自己定义这个函数这样,无论在哪台机器上,都可以简单根据顶点ID判断出该顶点属于哪个分区,即使该顶点可能已经不存在

16、了大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.5.1Pregel的执行过程图9-7 Pregel的执行过程图 在理想的情况下(不发生任何错误),一个Pregel用户程序的执行过程如下:(1)选择集群中的多台机器执行图计算任务,每台机器上运行用户程序的一个副本,其中,有一台机器会被选为Master,其他机器作为Worker(2)Master把一个图分成多个分区,并把分区分配到多个Worker(3)Master会把用户输入划分成多个部分,通常是基于文件边界进行划分(4)Master向每个Worker发送指令,Worker收到指令后,开始运行一个超步。当完成以后,Worker会通知Mas

17、ter,并把自己在下一个超步还处于“活跃”状态的顶点的数量报告给Master。上述步骤会被不断重复,直到所有顶点都不再活跃并且系统中不会有任何消息在传输,这时,执行过程才会结束(5)计算过程结束后,Master会给所有的Worker发送指令,通知每个Worker对自己的计算结果进行持久化存储大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.5.2容错性Pregel采用检查点机制来实现容错。在每个超步的开始,Master会通知所有的Worker把自己管辖的分区的状态(包括顶点值、边值以及接收到的消息),写入到持久化存储设备Master会周期性地向每个Worker发送ping消息,Worke

18、r收到ping消息后会给Master发送反馈消息。如果Master在指定时间间隔内没有收到某个Worker的反馈消息,就会把该Worker标记为“失效”。同样地,如果一个Worker在指定的时间间隔内没有收到来自Master的ping消息,该Worker也会停止工作每个Worker上都保存了一个或多个分区的状态信息,当一个Worker发生故障时,它所负责维护的分区的当前状态信息就会丢失。Master监测到一个Worker发生故障“失效”后,会把失效Worker所分配到的分区,重新分配到其他处于正常工作状态的Worker集合上,然后,所有这些分区会从最近的某超步S开始时写出的检查点中,重新加载状

19、态信息。很显然,这个超步S可能会比失效Worker上最后运行的超步S1要早好几个阶段,因此,为了恢复到最新的正确状态,需要重新执行从超步S到超步S1的所有操作大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.5.3Worker在一个Worker中,它所管辖的分区的状态信息是保存在内存中的。分区中的顶点的状态信息包括:顶点的当前值以该顶点为起点的出射边列表,每条出射边包含了目标顶点ID和边的值消息队列,包含了所有接收到的、发送给该顶点的消息标志位,用来标记顶点是否处于活跃状态在每个超步中,Worker会对自己所管辖的分区中的每个顶点进行遍历,并调用顶点上的Compute()函数,在调用时,

20、会把以下三个参数传递进去:该顶点的当前值一个接收到的消息的迭代器一个出射边的迭代器 大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.5.4MasterMaster主要负责协调各个Worker执行任务,每个Worker会借助于名称服务系统定位到Master的位置,并向Master发送自己的注册信息,Master会为每个Worker分配一个唯一的IDMaster维护着关于当前处于“有效”状态的所有Worker的各种信息,包括每个Worker的ID和地址信息,以及每个Worker被分配到的分区信息一个大规模图计算任务会被Master分解到多个Worker去执行,如果参与任务执行的多个Work

21、er中的任意一个发生了故障失效,Master就会进入恢复模式Master在内部运行了一个HTTP服务器来显示图计算过程的各种信息,用户可以通过网页随时监控图计算执行过程各个细节大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.5.5Aggregator 每个用户自定义的Aggregator都会采用聚合函数对一个值集合进行聚合计算得到一个全局值每个Worker都保存了一个Aggregator的实例集,其中的每个实例都是由类型名称和实例名称来标识的在执行图计算过程的某个超步S中,每个Worker会利用一个Aggregator对当前本地分区中包含的所有顶点的值进行归约,得到一个本地的局部归约值

22、在超步S结束时,所有Worker会将所有包含局部归约值的Aggregator的值进行最后的汇总,得到全局值,然后提交给Master在下一个超步S+1开始时,Master就会将Aggregator的全局值发送给每个Worker大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.6Pregel的应用实例 9.6.1单源最短路径 9.6.2二分匹配大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.6.1单源最短路径Pregel非常适合用来解决单源最短路径问题,实现代码如下:class ShortestPathVertex :public Vertex void Compute(Messag

23、eIterator*msgs)int mindist=IsSource(vertex_id()?0:INF;for(;!msgs-Done();msgs-Next()mindist=min(mindist,msgs-Value();if(mindist GetValue()*MutableValue()=mindist;OutEdgeIterator iter=GetOutEdgeIterator();for(;!iter.Done();iter.Next()SendMessageTo(iter.Target(),mindist+iter.GetValue();VoteToHalt();大数据

24、技术原理与应用 厦门大学计算机科学系 林子雨 9.6.2二分匹配程序的执行过程是由四个阶段组成的多个循环组成的,当程序执行到超步S时,S mod 4就可以得到当前超步处于循环的哪个阶段。每个循环的四个阶段如下:(1)阶段)阶段0:对于左集合中的任意顶点V,如果V还没有被匹配,就发送消息给它的每个邻居顶点请求匹配,然后,顶点V会调用VoteToHalt()进入“非活跃”状态。如果顶点V已经找到了匹配,或者V没有找到匹配但是没有出射边,那么,顶点V就不会发送消息。当顶点V没有发送消息,或者顶点V发送了消息但是所有的消息接收者都已经被匹配,那么,该顶点就不会再变为“活跃(active)”状态 (2)

25、阶段)阶段1:对于右集合中的任意顶点U,如果它还没有被匹配,则会随机选择它接收到的消息中的其中一个,并向左集合中的消息发送者发送消息表示接受该匹配请求,然后给左集合中的其他请求者发送拒绝消息;然后,顶点U会调用VoteToHalt()进入“非活跃”状态 (3)阶段)阶段2:左集合中那些还未被匹配的顶点,会从它所收到的、右集合发送过来的接受请求中,选择其中一个给予确认,并发送一个确认消息。对于左集合中已经匹配的顶点而言,因为它们在阶段0不会向右集合发送任何匹配请求消息,因而也不会接收到任何来自右集合的匹配接受消息,因此,是不会执行阶段2的 (4)阶段)阶段3:右集合中还未被匹配的任意顶点U,会收

26、到来自左集合的匹配确认消息,但是,每个未匹配的顶点U,最多会收到一个确认消息。然后,顶点U会调用VoteToHalt()进入“非活跃”状态,完成它自身的匹配工作 大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7 Pregel和MapReduce实现PageRank算法的对比9.7.1 PageRank算法算法9.7.2 PageRank算法在算法在Pregel中的实现中的实现9.7.3 PageRank算法在算法在MapReduce中的实现中的实现9.7.4 PageRank算法在算法在Pregel和和MapReduce中实现的比较中实现的比较大数据技术原理与应用 厦门大学计算机科学

27、系 林子雨 PageRank是一个函数,它为网络中每个网页赋一个权值。通过该权值来判断该网页的重要性该权值分配的方法并不是固定的,对PageRank算法的一些简单变形都会改变网页的相对PageRank值(PR值)PageRank作为谷歌的网页链接排名算法,基本公式如下:对于任意一个网页链接,其PR值为链入到该链接的源链接的PR值对该链接的贡献和,其中,N表示该网络中所有网页的数量,Ni为第i个源链接的链出度,PRi表示第i个源链接的PR值9.7.1 PageRank算法算法大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7.1 PageRank算法算法网络链接之间的关系可以用一个连通图

28、来表示,下图就是四个网页(A,B,C,D)互相链入链出组成的连通图,从中可以看出,网页A中包含指向网页B、C和D的外链,网页B和D是网页A的源链接大数据技术原理与应用 厦门大学计算机科学系 林子雨 在Pregel计算模型中,图中的每个顶点会对应一个计算单元,每个计算单元包含三个成员变量:顶点值(Vertex value):顶点对应的PR值 出射边(Out edge):只需要表示一条边,可以不取值 消息(Message):传递的消息,因为需要将本顶点对其它顶点的PR贡献值,传递给目标顶点每个计算单元包含一个成员函数Compute(),该函数定义了顶点上的运算,包括该顶点的PR值计算,以及从该顶点

29、发送消息到其链出顶点9.7.2 PageRank算法在算法在Pregel中的实现中的实现大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7.2 PageRank算法在算法在Pregel中的实现中的实现class PageRankVertex:public Vertex public:virtual void Compute(MessageIterator*msgs)if(superstep()=1)double sum=0;for(;!msgs-Done();msgs-Next()sum+=msgs-Value();*MutableValue()=0.15/NumVertices()+

30、0.85*sum;if(superstep()30)const int64 n=GetOutEdgeIterator().size();SendMessageToAllNeighbors(GetValue()/n);else VoteToHalt();大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7.2 PageRank算法在算法在Pregel中的实现中的实现PageRankVertex继承自Vertex类,顶点值类型是double,用来保存PageRank中间值,消息类型也是double,用来传输PageRank值,边的value类型是void,因为不需要存储任何信息这里假设在第0

31、个超步时,图中各顶点值被初始化为1/NumVertices(),其中,NumVertices()表示顶点数目在前30个超步中,每个顶点都会沿着它的出射边,发送它的PageRank值除以出射边数目以后的结果值。从第1个超步开始,每个顶点会将到达的消息中的值加到sum值中,同时将它的PageRank值设为0.15/NumVertices()+0.85*sum到了第30个超步后,就没有需要发送的消息了,同时所有的顶点停止计算,得到最终结果大数据技术原理与应用 厦门大学计算机科学系 林子雨 MapReduce也是谷歌公司提出的一种计算模型,它是为全量计算而设计采用MapReduce实现PageRank

32、的计算过程包括三个阶段:第一阶段:解析网页第一阶段:解析网页 第二阶段:第二阶段:PageRank分配分配 第三阶段:收敛阶段第三阶段:收敛阶段9.7.3 PageRank算法在算法在MapReduce中的实现中的实现大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7.3 PageRank算法在算法在MapReduce中的实现中的实现该阶段的任务就是分析一个页面的链接数并赋初值。一个网页可以表示为由网址和内容构成的键值对,作为Map任务的输入。阶段1的Map任务把映射为URL,后进行输出,其中,PRinit是该URL页面对应的PageRank初始值,url_list包含了该URL页面中

33、的外链所指向的所有URL。Reduce任务只是恒等函数,输入和输出相同。对右图,每个网页的初始PageRank值为1/4。它在该阶段中:Map任务的输入为:Map任务的输出为:AURL,1/4,BURL,1/4,CURL,DURL,1/4,1.阶段阶段1:解析网页:解析网页大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7.3 PageRank算法在算法在MapReduce中的实现中的实现该阶段的任务就是多次迭代计算页面的PageRank值。在该阶段中,Map任务的输入是URL,其中,cur_rank是该URL页面对应的PageRank当前值,url_list包含了该URL页面中的外链

34、所指向的所有URL。对于url_list中的每个元素u,Map任务输出u,(其中,|url_list|表示外链的个数),并输出链接关系。每个页面的PageRank当前值被平均分配给了它们的每个外链。Map任务的输出会作为下面Reduce任务的输入。对下图第一次迭代Map任务的输入输出如下:输入为:输出为:BURL,CURL,DURL,AURL,AURL,CURL,BURL,DURL,AURL,BURL,DURL,2.阶段阶段2:PageRank分配分配大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7.3 PageRank算法在算法在MapReduce中的实现中的实现然后,在该阶段的R

35、educe阶段,Reduce任务会获得和u,Reduce任务对于具有相同key值的value进行汇总,并把汇总结果乘以d,得到每个网页的新的PageRank值new_rank,然后输出URL,作为下一次迭代过程的输入。Reduce任务把第一次迭代后Map任务的输出作为自己的输入,经过处理后,阶段2的Reduce输出为:AURL,0.2500,BURL,0.2147,CURL,DURL,0.3206,经过本轮迭代,每个网页都计算得到了新的PageRank值。下次迭代阶段2的Reduce输出为:AURL,0.2200,BURL,0.1996,CURL,DURL,0.3808,2.阶段阶段2:Pag

36、eRank分配(分配(Reduce阶段)阶段)大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7.3 PageRank算法在算法在MapReduce中的实现中的实现Mapper函数的伪码:函数的伪码:input -PageA,PageB,PageC./PageN外链指向PageA,PageB,PageC.begin Nn:=the number of outlinks for PageN;for each outlink PageK output PageK-output PageN-PageA,PageB,PageC./同时输出链接关系,用于迭代end/*Mapper输出如下(已经排

37、序,所以PageK的数据排在一起,最后一行则是链接关系对):PageK-PageK-.PageK-Reducer函数的伪码:函数的伪码:input mappers outputbegin RankK:=(1-beta)/N;/N为整个网络的网页总数 for each inlink PageNi RankK+=RankNi/Nni*beta /输出PageK及其新的PageRank值用于下次迭代 output -end该阶段是一个多次迭代过程,迭代多次后,当PageRank值趋于稳定时,就得出了较为精确的PageRank值。大数据技术原理与应用 厦门大学计算机科学系 林子雨 9.7.3 Page

38、Rank算法在算法在MapReduce中的实现中的实现该阶段的任务就是由一个非并行组件决定是否达到收敛,如果达到收敛,就写出PageRank生成的列表。否则,回退到PageRank分配阶段的输出,作为新一轮迭代的输入,开始新一轮PageRank分配阶段的迭代一般判断是否收敛的条件是所有网页的PageRank值不再变化,或者运行30次以后我们就认为已经收敛了3.阶段阶段3:收敛阶段:收敛阶段大数据技术原理与应用 厦门大学计算机科学系 林子雨 PageRank算法在Pregel和MapReduce中实现方式的区别主要表现在以下几个方面:(1)Pregel将PageRank处理对象看成是连通图,而M

39、apReduce则将其看成是键值对(2)Pregel将计算细化到顶点,同时在顶点内控制循环迭代次数,而MapReduce则将计算批量化处理,按任务进行循环迭代控制(3)图算法如果用MapReduce实现,需要一系列的MapReduce的调用。从一个阶段到下一个阶段,它需要传递整个图的状态,会产生大量不必要的序列化和反序列化开销。而Pregel使用超步简化了这个过程9.7.4 PageRank算法在Pregel和MapReduce中实现的比较大数据技术原理与应用 厦门大学计算机科学系 林子雨 本章小结本章内容介绍了图计算框架Pregel的相关知识。传统的图计算解决方案无法解决大型的图计算问题,包

40、括Pregel在内的各种图计算框架脱颖而出。Pregel并没有采用远程数据读取或者共享内存的方式,而是采用了纯消息传递模型,来实现不同顶点之间的信息交换。Pregel的计算过程是由一系列被称为“超步”的迭代组成的,每次迭代对应了BSP模型中的一个超步。Pregel已经预先定义好一个基类Vertex类,编写Pregel程序时,需要继承Vertex类,并且覆写Vertex类的虚函数Compute()。在Pregel执行计算过程时,在每个超步中都会并行调用每个顶点上定义的Compute()函数。Pregel是为执行大规模图计算而设计的,通常运行在由多台廉价服务器构成的集群上。一个图计算任务会被分解到

41、多台机器上同时执行,Pregel采用检查点机制来实现容错。Pregel作为分布式图计算的计算框架,主要用于图遍历、最短路径、PageRank计算等等。本章最后通过对PageRank算法在MapReduce和Pregel上执行方式的不同进行比较,说明了Pregel解决图计算问题的优势。大数据技术原理与应用 厦门大学计算机科学系 林子雨 主讲教师和助教主讲教师:林子雨主讲教师:林子雨单位:厦门大学计算机科学系数据库实验室2013级硕士研究生(导师:林子雨)E-mail:助教:蔡珉星助教:蔡珉星欢迎访问大数据技术原理与应用概念、存储、处理、分析与应用教材官方网站:http:/ 厦门大学计算机科学系 林子雨 Department of Computer Science,Xiamen University,June,2015大数据技术原理与应用 厦门大学计算机科学系 林子雨 演讲完毕,谢谢观看!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!