基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文

上传人:仙*** 文档编号:149418800 上传时间:2022-09-07 格式:DOC 页数:85 大小:1.50MB
收藏 版权申诉 举报 下载
基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文_第1页
第1页 / 共85页
基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文_第2页
第2页 / 共85页
基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文_第3页
第3页 / 共85页
资源描述:

《基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文》由会员分享,可在线阅读,更多相关《基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文(85页珍藏版)》请在装配图网上搜索。

1、分类号 密级 UDC 编号 学 位 论 文基于Hadoop平台的教育资源垂直搜索系统的设计与实现Implementation of Education Resource Vertical Searching System Based on Hadoop分 类 号 : 密 级 : U D C : 编 号 : 学 位 论 文基于Hadoop平台的教育资源垂直搜索系统的设计与实现 Implementation of Education Resource Vertical Searching System Based on Hadoop 学科专业:计算机应用技术 计算机科学与通信工程学院2 0 11

2、年 04 月江 苏 大 学 工 程 硕 士 学 位 论 文学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密 , 在 年解密后适用本授权书。本学位论文属于 不保密 。学位论文作者签名: 指导教师签名: 年 月 日 年 月 日I毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究

3、工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的

4、部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印

5、、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范?

6、 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(

7、包括装订及附件)? 优 良 中 及格 不及格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日江苏大学硕士研究生毕业论文教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、理解、表达情况 优 良 中

8、 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任:

9、 (签名)年 月 日摘 要互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信息的速度和准确度。本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用Hadoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S

10、多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。本文的主要工作包括:(1) 通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。(2) 基于抽样调查和教育经验,进行MDVSP的软件需求分析,设计基于Hadoop平台的教育资源垂直搜索(MDVSP)架构模型。该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性

11、和更高的安全性。(3) 研究基于Hadoop平台的教育资源搜索系统所采用的关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。(4) 以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。经过详细的系统测试,系统在实现效率、搜索的准确率和可扩展性等方面较有代表性的垂直搜索平台先进。关键词:垂直搜索引擎;Hadoop;网页信息抽取;抽取规则;索引库VIAbstractThe WWW has been a tremendous impact on t

12、he way of human beings lives, works, and studies, even entertainments. Especially in education realm, educators, students and their parents can get more and more references and education resources with the help of internet. However, theres still an unresolved a problem, for lacking of suitable stand

13、ards and filtering methods, actually, it will spend more time to get the resource you really want .To solve this issue, we need to do some research and design a better platform to extract interesting information conveniently, accurately and efficiently.On the basis of comparing the frameworks and de

14、signing methods adopted by current Searching Engines, and learning from other applications used in vertical searching platform architecture and design method, by means of the hierarchical structure and the focused-spider creeping technology, this dissertation presents a new model of Multi-tier Distr

15、ibuted Vertical Searching Platform(MDVSP) for Educational Realm based on Hadoop, which is a mixed B/S framework. The thesis also amply demonstrates the key techniques of improving the operating efficiency of the MDVSP. Moreover, based on the new mixed framework of MDVSP, the dissertation succeeds in

16、 designing the Prototype System of MDVSP. The dissertation mainly concerns the following four aspects:1. This dissertation presents the basic principles and framework of the Hadoop platform, and introduces the two core components of Hadoop HDFS and Map/Reduce algorithm. To manage data on the Hadoop

17、platform better, the MDVSP chooses Hbase as database storage, which is a major component of Hadoop. This thesis also uses several sections to describe the Hbases date structure model design and the query improvements.2. MDVSP software requirement analysis is based on sampling survey results and educ

18、ation experiences. MDVSP is chosen based on the analysis result. The advantage of this model is to process the business and Web separately, and it can parallel compute Map/Reduce. Which provide MDVSP better condensability, expendability, maintainability and higher security.3. The key technologies th

19、at MDVSP has been used includes focused-spider creeping technology, structured web information extraction technology, remote procedure call(RPC) technology, Map/Reduce technology based on Hadoop and load balancing technology based on Hadoop.4. With the key technologies researching, and detailed anal

20、yzing the requirement of the MDVSP, this dissertation accomplishes the design of the Prototype System of M-Disem, which uses Java programming language and structures on Hadoop platform. After a detailed system testing and compared with other Vertical Searching Systems, the MDVSP achieves high effici

21、ency, accuracy searching and good scalability.Keywords Vertical; Searching Engine; Hadoop; Web Information Extraction; Extraction rules; Index Database江苏大学硕士研究生毕业论文目 录第一章绪 论11.1 课题研究背景及意义11.1.1背景及意义11.1.2 目前现状11.2 教育资源搜索存在的问题21.3 本文主要工作31.4 本文的组织结构3第二章 HADOOP平台架构52.1 Hadoop的产生52.2 基于Hadoop分布式架构的优势52

22、.3 Hadoop组件62.4 本章小结6第三章 MDVSP平台需求分析83.1 教育资源垂直搜索的用户群83.2 MDVSP搜索资源类型需求93.3 MDVSP搜索平台功能需求103.4 本章小结11第四章基于HADOOP平台的MDVSP模型124.1 分布式文件系统HDFS与Map/Reduce技术124.1.1 分布式文件系统HDFS134.1.2 Map/Reduce技术164.2 基于Hadoop的MDVSP平台的多层分布式架构194.2.1 系统体系结构194.2.2 MDVSP平台数据处理模型整体框架204.2.3 MDVSP平台数据在HDFS中存放结构214.3 MDVSP通信

23、数据模型设计214.3.1 数据模型分析214.3.2 数据模型设计224.3.3 主表设计234.4 本章小结25第五章基于HADOOP平台的MDVSP的关键技术275.1 MDVSP中聚焦蜘蛛275.1.1 工作原理275.1.2 关键技术285.2 Map/Reduce设计315.2.1 Map/Reduce 逻辑结构设计325.2.2 Map/Reduce 数据流设计325.2.3 容错和可靠性设计335.2.4 任务粒度和backup 任务性能优化设计345.3 远程调用设计355.3.1 MDVSP采用的RPC远程调用设计思想355.3.2 MDVSP-RPC数据表示设计365.3

24、.3 MDVSP-RPC服务器端的实现385.3.4 MDVSP-RPC客户端的实现385.4 Hadoop的HA设计395.4.1 Health Check 设计405.4.2 Hadoop Failover流程设计415.5 本章小结42第六章 MDVSP平台的实现436.1 方案部署436.1.1 硬件配置446.1.2 SSH公钥认证配置446.1.3 Hadoop平台搭建446.1.4 Hbase平台搭建456.1.5 与垂直搜索引擎结合466.2 开发平台及其开发工具476.2.1 操作系统476.2.2 硬件平台476.2.3 开发工具476.3 MDVSP系统的实现486.3.

25、1 聚焦蜘蛛模块的实现486.3.2 教育资源搜索结果496.3.3 教育资源信息自动抽取的实现516.3.4 Lucene倒排文件索引结构566.3.5教育资源信息的存储实现586.4用户查询功能的实现586.4.1用户查询主要函数实现586.4.2教育资源信息查询606.5 运行结果与对比626.6 本章小结64第七章 总结与展望657.1 总结657.2 展望65参考文献67致 谢69江苏大学硕士研究生毕业论文42第一章绪论1.1课题研究背景及意义1.1.1背景及意义随着网络与通信技术的迅速发展,Web信息爆炸性的增长,互联网已经成为一个巨大的海量信息空间。如何迅速、准确、方便的从如此庞

26、大的信息库获取自己需要的信息,是互联网用户面临的一个重要问题。搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信息的价值得到众多商家的普遍认可,成为互联网中最有价值的领域。大家熟知的搜索引擎Google、百度、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的贡献。我国互联网络信息中心CNNIC于2006年1月发布的第17次中国互联网络发展统计报告显示:搜索引擎以65.7%的使用率成为第二大网络服务1。互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几

27、十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容。因此,如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。对于基础教育领域的广大教师、学生、家长以及其他教育工作者,互联网已经成为他们获取基础教育资源和信息的重要工具,网上大量的试卷、教学研究论文、课件、课外阅读材料、招生信息等基础教育资源信息可以使教师提高自己的工作效率和水平,使学生扩大自己的知识面,使家长掌握最新的教育信息。那么对教育资源用户来讲,目前的信息服务能否满足他们的需求?他们更倾向于什么样

28、的信息服务形式?1.1.2 目前现状1. 获取基础教育资源最常用的方式是搜索引擎2用户获取基础教育资源的较经常使用的方式为搜索引擎、学科专题网站、基础教育综合网站。其中使用最多的是搜索引擎。2. 目前的搜索引擎还不能完全满足用户需求2综合性通用搜索引擎在一定程度上方便了用户查找利用网上信息,但由于它面向的是大众,强调通用性,搜索结果中有很多杂乱信息,信息的准确度较低,不能完全满足基础教育用户的需求。3. 倾向简单的检索方式2大多数人通常使用关键词查询,一部分人使用诸如“+(and)”、“-(or)”等检索技巧,使用高级检索的人很少,用合适的关键词检索是被所有用户认为是比较容易的,所有用户都倾向

29、于简单易用的检索方式。4. 通常输入的检索内容包含不同层次的信息大多数用户输入单个或多个关键词,而多个关键词的查询往往包含有两类信息主题描述信息和资源的类别限制信息。比如说,一位教师输入“阿Q正传教案”,关键词“阿Q正传”是主题信息,关键词“教案”,是类别限制信息,再如一个学生查找“八年级(上)生物学试题”为学段(年级)、学科和资源类型的组合。最常见的主题描述信息是学科内知识点、语文课文标题等,常见的类别限制信息是学科、学段(或年级)、资源类型。总体上,用户使用通用搜索引擎获取基础教育资源存在的问题可归为以下两个方面:1. 教育资源的关键词不能被搜索引擎正确识别,导致检索结果的信息杂乱与过量,

30、即使搜索出来也与可能是与教育无关的资源信息。2. 由于在通过关键词检索方式中,关键词与类别词的混杂使用导致信息准确度较低。往往要搜索的信息排序靠后或漏检。1.2教育资源搜索存在的问题根据以上分析,用户获取网上教育资源主要存在以下问题:1、信息过量。网上资源内容广泛,通用搜索引擎返回的大量信息过多过杂,专业性不强.使用户淹没在海量信息里,筛选信息需要耗费大量的精力。2、信息准确度低。由于通用搜索引擎强调通用性,检索范围广,对资源没有筛选分类,资源索引库十分庞杂,很难满足特定用户群的特定需求。3、信息服务缺乏针对性,缺少用户交互。通用搜索引擎检索结果完全依赖于用户的关键词,即对于不同的用户,同一个

31、关键词返回的结果相同,没有与用户联系起来,难以满足用户的个性化需求。1.3 本文主要工作本人通过对现有教育领域搜索引擎的技术分析,结合问卷抽样调查反馈,对用户的需求进行鉴别、综合和建模,清除用户需求的模糊性、歧义性和不一致性,定义了本系统的功能和性能需求,在对Hadoop平台的框架研究基础之上,提出了基于Hadoop平台的MDVSP(Multi-tier Distributed Vertical Searching Platform)模型,详细阐述了MDVSP系统在设计和实现过程中应用到的一些关键技术,并基于该模型实现了MDVSP原型。本文的工作包括:(1) 提出了基于Hadoop平台的教育资

32、源垂直搜索系统(MDVSP)模型。包括切合本系统的分布式的集群整体框架和HDFS存放结构。(2) 阐述了MDVSP中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。(3) 设计了Map/Reduce的逻辑结构和数据流。(4) 设计和封装了RPC远程调用协议。给出了设计思想和数据表示设计。(5) 设计了MDVSP的HA。包括框架、原理和详细实现。(6) 以JAVA和PERL为工具实现了MDVSP系统原型。最后对全文的内容进行了总结,分析了系统现有的不足,并提出了进一步完善的目标和基本方法。1.4 本文的组织结构本论文共分为七章,各章内容具体安排如下:第一章 绪论。主要论述课题的研究背景,垂直搜索引

33、擎发展现状、存在的问题。第二章 Hadoop平台架构。介绍Hadoop的概念和Hadoop的优点,Hadoop平台架构。第三章 MDVSP平台需求分析。给出MDVSP平台的使用用户群,并基于抽样调查和多年的教育经验,对用户的需求进行鉴别、清除用户需求的模糊性、歧义性和不一致性,将原始问题的理解与软件开发经验结合,深入描述软件的功能和性能需求。第四章 基于Hadoop平台的MDVSP模型。叙述基于Hadoop平台的教育资源垂直搜索模型(MDVSP),并阐述这种架构的优点,提出使用这种架构可以解决目前现有搜索平台在教育领域搜索中存在的一些问题。对MDVSP系统进行了逻辑结构设计和物理结构设计。第五

34、章 基于Hadoop平台的MDVSP的关键技术。阐述基于Hadoop平台模型下构建教育资源垂直搜索系统(MDVSP)中用到的关键技术。主要包括聚焦蜘蛛的爬行技术、基于Hadoop平台下Map/Reduce的逻辑结构和数据流设计和系统采用的MDVSP-RPC远程调用的封装技术。第六章 MDVSP平台的实现。以JAVA和PERL为开发工具,通过Hadoop平台框架实现基于上述架构模型的MDVSP系统的各层设计,并列出相关功能的关键性JAVA和PERL代码。通过试验,并与有代表性的垂直搜索平台的搜索结果进行性能对比,分析MDVSP平台在教育资源领域的搜索效率和准确度都有所提高。第七章 总结与展望。对

35、本文的工作进行总结,并从系统功能和理论研究两个方面对以后的工作进行规划和展望。第二章Hadoop平台架构2.1 Hadoop的产生 自从Google工程师Jeffrey Dean提出Map Reduce编程思想,MapReduce便在Google的各种 Web应用中释放着魔力。然而,也许出于技术保密的目的,Google公司并没有透露其 MapReduce的实现细节。幸运的是,Doug Cutting开发Hadoop作为 MapReduce5-6开源实现,让MapReduce这么平易近人地走到了我们面前。 2006年1月, Doug Cutting 因其在开源项目Nutch和Lucene的卓越表

36、现受邀加入Yahoo公司,专职在Hadoop项目上进行开发。现在,Doug Cutting已经加盟 Cloudera(一家从事 Hadoop产品商业化及技术支持的公司)。作为 Google MapReduce技术的开源实现,Hadoop理所当然地借鉴了Google的Google File System文件系统、MapReduce 并行算法以及 BigTable。因此,Hadoop也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。Hadoop的高效性在MapReduce的

37、思想下, Hadoop是并行工作的,以加快任务处理速度。Hadoop的可扩展性-依赖于部署 Hadoop软件框架计算集群的规模,Hadoop的运算是可扩展的,具有处理 PB 级数据的能力。2.2 基于Hadoop分布式架构的优势没有不好的工具,只用不适用的工具。本系统采用Hadoop分布式架构的目的有以下几个方面:1. 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。2. 经济:框架可以运行在任何普通的PC上。3. 可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。4. 高效:分布式文件系统的高效数据交互实现以及MapReduce

38、结合LocalData处理的模式,为高效处理海量的信息作了基础准备。2.3 Hadoop组件 Hadoop是一个分布式计算基础架构这把大伞下的相关子项目的集合,其中最出名的是MapReduce及其分布式文件系统HDFS,还有其他子项目提供配套服务.如下:表2.1 Hadoop组件PigChukwaHiveHBaseMapReduceHDFSZoo KeeperCoreAvrol Core: 一系列分布式文件系统和通用I/O的组件和接口(序列化、Java RPC和持久化数据结构。l Avro: 一种提供高效、跨语言RPC(Remote Procedure Call Protocol)的数据序列系

39、统,持久化数据存储。l MapReduce: 分布式数据处理模式和执行环境,运行于大型商用机集群。l HDFS:(Hadoop Distributed File System)分布式文件系统,运行于大型商用机集群。l Pig: 一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。l HBase: 一个分布式的、列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。l ZooKeeper: 一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。l H

40、ive: 分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。l Chukwa: 分布式数据收集和分析系统。Chukwa7-9运行HDFS中存储数据的收集器,它使用MapReduce来生成报告。2. 本章小结本章重点介绍了Hadoop技术背景和基于HDFS分布式架构的优点,也指出了目前Hadoop版本的HDFS在功能上和性能上的一些不足之处,如名称节点的单点故障隐患。尽管HDFS目前仍然不尽完善,但是这些缺陷和不足之处不会影响到具体项目的成功实施。为了更好的应用Hadoop平台框架,对MDVSP系统中设计到的组件

41、进行剖析。第三章MDVSP平台需求分析当我要查找高三物理试卷模拟考试,为什么百度,谷歌都出现了培训中心的广告?想要查找小学三年级上学期课件,搜索结果出现了大量的招生广告越来越多的教育工作者、学生发现百度和谷歌搜索平台,不容易使用了,想要获得自己想要的信息,需要大量的时间来筛选。今日,中国科学院研究生院管理学院副院长吕本富博士对此现象也给出了这样的结论:”从信息的匹配度上看,两家搜索引擎都不能满足用户完全需要”。造成这种现象的原因是什么呢?用一句话概括就是“网民多样化,需求多样化”。随着互联网普及程度的不断提高,网民由以前的IT专业人士扩大到不同职业,不同年龄的群体。而搜索引擎是仅次于网页一般性

42、浏览、收发电子邮件的网民第三大基本需求,其需求自然随之也变得多样化。据赛迪网调查,有六成的网民认为面向某一领域的搜索引擎对其非常或比较重要,因此当大学毕业生有了例如论文、外文翻译、论文格式等某种特定需求时,他自然希望能够使用面向这些特定需求的搜索引擎。但这些需求的复杂性与多样性都是传统搜索引擎无法满足的。这就导致了搜索引擎市场上出现了这样的趋势。MDVSP垂直化搜索“专、精、深” 等特点给教育行业工作者、学生带来了方便,MDVSP的定位很简单:以特定的信息服务提供给易用、简单且富有效率的信息。MDVSP不关注搜索信息的竞价排名的现状,所以MDVSP搜索引擎的在教育界的价值便突出出来。此外,由于

43、针对特定行业的培训、考试、辅导教材等信息的分类,垂直化搜索与传统搜索相比显得更为“聪明”、更具人性化。 3.1 教育资源垂直搜索的用户群 早在2003年的时候,江苏苏州教育界就构想“打造中小学校的教育信息资源共享平台“。MDVSP搜索平台的定位就是教育领域的幼稚园、小学、中学、大学、机构培训以及成人教育。图3.1给出了教育资源垂直搜索面向的用户群体。从图上可以看出用户的群体数量还是比较大的。在一定程度上解决了教学资源的资源共享12。图3.1 MDVSP搜索平台使用对象3.2 MDVSP搜索资源类型需求教育资源包括从事教育事业的人力资源、物力资源、和无形资源的总和。其中直接支持教学活动的数字文档

44、各种资源被称为教学资源,它包括1. 在教学过程中所使用和产生的教案、课堂用的幻灯片、课堂测试题、课件、动画、图形图像、音、视频以及各类测试、考试题;2. 学生创作类资源和学习过程中产生的资源;3. 教育管理与教学评估类的数据资源;4. 教育科研过程所产生的资源;5. 其他特色资源;图3.2 给出了MDVSP搜索资源类型的图示,从图中我们可以看出,大部分的资源是由区域或者学校统一组织形成日常的资源上传机制13。图3.2 MDVSP搜索资源类型3.3 MDVSP搜索平台功能需求本搜索引擎是通过聚焦蜘蛛自动获取相关的教育资源并建立索引,为用户提供有效信息和相关服务的。起主要服务对象是被教育者和从事教

45、育事业的工作者。根据问卷调查和访谈记录,MDVSP搜索引擎需要满足一下功能需求14:1. 需要实现面向教学主体的网页信息检索功能。教学资源主题信息检索能保证返回信息的精确性,用户在检索信息的时候就不必面对成千上万条记录而产生心理负担。2. 需要建立web2.0社区。这能缓解教学资源不平等的现象。由于地域的差异,教学水平、师资等都存在很大的差异,常常在教学过程中遇到问题,就迫切需要得到帮助解决。建立了社区,为用户寻求帮助提供了很好的渠道,也满足教育工作者之间的直接经验交流。3. 需要定制个性化的信息。因为教学是有一定的时间周期的,所以常用教育资源垂直搜索引擎的用户在一定的时间内需要得到稳定的信息

46、。需要存储保留一些用户的关注度等信息。4. 需要满足教学资源的视频搜索。有很多教学资源是以视频、音频的方式存在的,如果公开课视频,优秀教师示范课视频,还有很多的动画资源等。5. 需要能提供上传资源的功能。MDVSP获取资源的方式,一方面由聚焦蜘蛛爬行11获得,一方面是由广大的用户群体上传。用户上传的资源具有针对性,专业性强、易分类管理,是提高MDVSP搜索平台准确性的重要保证。3.4 本章小结本章节深入描述MDVSP软件的功能和性能需求。本章节是MDVSP系统平台实现的基础。它以问卷调查和从事教育事业的经验积累出发点,分析了MDVSP面向的用户群体,以及按照不同的群体有着不同的搜索兴趣点。最后

47、归纳总结了系统平台的功能需求。第四章基于Hadoop平台的MDVSP模型4.1分布式文件系统HDFS与Map/Reduce技术Hadoop文件系统(HDFS)是一个运行在普通的硬件上的分布式文件系统,HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS大数据集的应用程序。图4.1是HDFS的体系结构。 图4.1 HDFS 体系架构由图4.1可知,Client可以对DataNode进行读和写操作,同时在NameNode上对元数据进行操作。NameNode上元数据控制DataNode信息。Map/Reduce算法模型是Google的一项重要技术,它是一种编程模式,用以进行大数据量的计算。很多

48、开发人员对并行计算比较陌生,再涉及到分布式处理就更加棘手。Map/Reduce算法模型就是一种简化并行计算的编程模型,它向上层用户提供接口,屏蔽了并行计算特别是分布式处理的诸多细节问题,让那些没有多少并行计算经验的开发人员也可以很方便的开发并行应用,避免了很多重复工作。这也就是MapReduce算法模型的价值所在,通过简化编程模型,降低了开发并行应用的入门门槛,并且能大大减轻了程序员在开发大规模数据的应用时的编程负担。4.1.1 分布式文件系统HDFS4.1.1.1 名字节点与数据节点HDFS是一个主从结构的体系,一个HDFS集群是由一个名字节点,它是一个管理文件的命名空间和调节客户端访问文件

49、的主服务器,当然还有的数据节点,一个节点一个,它来管理存储。HDFS暴露文件命名空间和允许用户数据存储成文件。 内部机制是将一个文件分割成一个或多个的块,这些块存储在一组数据节点中。名字节点操作文件命名空间的文件或目录操作,如打开,关闭,重命名,等等。它同时确定块与数据节点的映射。数据节点来负责来自文件系统客户的读写请求。 数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指示。名字节点和数据节点都是软件运行在普通的机器之上,机器典型的都是linux,HDFS是用java来写的,任何支持java的机器都可以运行名字节点或数据节点,利用java语言的超轻便型,很容易将HDFS部署到大范围

50、的机器上。典型的部署时将有一个专门的机器来运行名字节点软件,机群中的其他机器运行一个数据节点实例。体系结构排斥在一个机器上运行多个数据节点的实例,但是实际的部署不会有这种情况。集群中只有一个名字节点极大地简单化了系统的体系。名字节点是仲裁者和所有HDFS的元数据的仓库。系统设计成用户的实际数据不经过名字节点。系统设计成用户的实际数据不经过名字节点。数据节点是负责存储。一般一台机器上面部属一个数据节点,有时也会把几个数据节点部属在一台机器上,但这种情况不是很常见。这些机器一般都是普通的PC机。PC机上一般是GUNLinux操作系统,HDFS是用Java来写的,任何支持Java的机器都可以运行名字

51、节点或数据节点,利用Java语言的超轻便型,很容易将HDFS部署到大范围的机群上16-17。4.1.1.2 数据复制HDFS被设计成在一个大集群中可以跨机器地可靠地存储海量的文件。它将每个文件存储成block序列,除了最后一个block,所有的block都是同样的大小。文件的所有block为了容错都会被复制。每个文件的block大小和replication因子都是可配置的。Replication因子可以在文件创建的时候配置,以后也可以改变。HDFS中的文件是write-one,并且严格要求在任何时候只有一个writer。Namenode全权管理block的复制,它周期性地从集群中的每个Data

52、node接收心跳包和一个Blockreport。心跳包的接收表示该Datanode节点正常工作,而Blockreport包括了该Datanode上所有的block组成的列表。1、副本的存放副本的存放是HDFS可靠性和性能的关键。HDFS采用一种称为rack-aware的策略来改进数据的可靠性、有效性和网络带宽的利用。这个策略实现的短期目标是验证在生产环境下的表现,观察它的行为,构建测试和研究的基础,以便实现更先进的策略。庞大的HDFS实例一般运行在多个机架的计算机形成的集群上,不同机架间的两台机器的通讯需要通过交换机,显然通常情况下,同一个机架内的两个节点间的带宽会比不同机架间的两台机器的带宽

53、大。通过一个称为Rack Awareness的过程,Namenode决定了每个Datanode所属的rack id。一个简单但没有优化的策略就是将副本存放在单独的机架上。这样可以防止整个机架(非副本存放)失效的情况,并且允许读数据的时候可以从多个机架读取。这个简单策略设置可以将副本分布在集群中,有利于组件失败情况下的负载均衡。但是,这个简单策略加大了写的代价,因为一个写操作需要传输block到多个机架。在大多数情况下,replication因子是3,HDFS的存放策略是将一个副本存放在本地机架上的节点,一个副本放在同一机架上的另一个节点,最后一个副本放在不同机架上的一个节点。机架的错误远远比节

54、点的错误少,这个策略不会影响到数据的可靠性和有效性。三分之一的副本在一个节点上,三分之二在一个机架上,其他保存在剩下的机架中,这一策略改进了写的性能。2、副本的选择为了降低整体的带宽消耗和读延时,HDFS会尽量让reader读最近的副本。如果在reader的同一个机架上有一个副本,那么就读该副本。如果一个HDFS集群跨越多个数据中心,那么reader也将首先尝试读本地数据中心的副本。3、SafeModeNamenode启动后会进入一个称为SafeMode的特殊状态,处在这个状态的Namenode是不会进行数据块的复制的。Namenode从所有的 Datanode接收心跳包和Blockrepor

55、t。Blockreport包括了某个Datanode所有的数据块列表。每个block都有指定的最小数目的副本。当Namenode检测确认某个Datanode的数据块副本的最小数目,那么该Datanode就会被认为是安全的;如果一定百分比(这个参数可配置)的数据块检测确认是安全的,那么Namenode将退出SafeMode状态,接下来它会确定还有哪些数据块的副本没有达到指定数目,并将这些block复制到其他Datanode。4.1.1.3 数据组织HDFS支持海量文件处理。应用程序可以处理大数据集。这些程序一次写入数据多次读取,因此需要一个比较好的流读取速度。HDFS典型的块大小是64M,一个H

56、DFS文件可以最多被切分成128MB个块,每一个块分布在不同的数据节点上。客户端请求创建文件时,并不立即请求名字节点。HDFS客户端在本地的文件中缓存文件数据,应用程序将数据写到这个临时的本地文件。当本地文件堆积到大于HDFS块大小的时候,客户端联系名字节点。名字节点插入文件名到文件系统层次当中,然后分配一个数据块。名字节点把请求包括数据节点(可能多个)的标识和目标数据块反馈给客户端,客户端再将本地的临时文件转移到数掘节点数据块中。当文件关闭,还有一些没有刷新的本地临时文件也被传递到数据节点。客户端随后通知名字节点,这个文件已经关闭。假如名字节点在文件关闭之前死掉,文件就会丢失18-2。1、数

57、据块兼容HDFS的应用都是处理大数据集合的。这些应用都是写数据一次,读却是一次到多次,并且读的速度要满足流式读。HDFS支持文件的write- once-read-many语义。一个典型的block大小是64MB,因而,文件总是按照64M切分成chunk,每个chunk存储于不同的 Datanode。2、步骤某个客户端创建文件的请求其实并没有立即发给Namenode,事实上,HDFS客户端会将文件数据缓存到本地的一个临时文件。应用的写被透明地重定向到这个临时文件。当这个临时文件累积的数据超过一个block的大小(默认64M),客户端才会联系Namenode。Namenode将文件名插入文件系统

58、的层次结构中,并且分配一个数据块给它,然后返回Datanode的标识符和目标数据块给客户端。客户端将本地临时文件flush到指定的 Datanode上。当文件关闭时,在临时文件中剩余的没有flush的数据也会传输到指定的Datanode,然后客户端告诉Namenode文件已经关闭。此时Namenode才将文件创建操作提交到持久存储。如果Namenode在文件关闭前挂了,该文件将丢失18-20。上述方法是对通过对HDFS上运行的目标应用认真考虑的结果。如果不采用客户端缓存,由于网络速度和网络堵塞会对吞估量造成比较大的影响。3、流水线复制当某个客户端向HDFS文件写数据的时候,一开始是写入本地临时

59、文件,假设该文件的replication因子设置为3,那么客户端会从Namenode 获取一张Datanode列表来存放副本。然后客户端开始向第一个Datanode传输数据,第一个Datanode一小部分一小部分(4kb)地接收数据,将每个部分写入本地仓库,并且同时传输该部分到第二个Datanode节点。第二个Datanode也是这样,边收边传,一小部分一小部分地收,存储在本地仓库,同时传给第三个Datanode,第三个Datanode就仅仅是接收并存储了。这就是流水线式的复制。4.1.2 Map/Reduce技术4.1.2.1 主要操作实现1) Map操作Map操作是并行的,所以输入文件先被划分为几个“文件片断。如果单个文件的大小达到了影响搜索时间的程度,这个文件也会被划分为几个“片段”。在文件划分的时候并不考虑输入文件的

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!