搜索引擎之爬虫研究现状简介.ppt

上传人:za****8 文档编号:14118415 上传时间:2020-07-04 格式:PPT 页数:18 大小:242.01KB
收藏 版权申诉 举报 下载
搜索引擎之爬虫研究现状简介.ppt_第1页
第1页 / 共18页
搜索引擎之爬虫研究现状简介.ppt_第2页
第2页 / 共18页
搜索引擎之爬虫研究现状简介.ppt_第3页
第3页 / 共18页
资源描述:

《搜索引擎之爬虫研究现状简介.ppt》由会员分享,可在线阅读,更多相关《搜索引擎之爬虫研究现状简介.ppt(18页珍藏版)》请在装配图网上搜索。

1、搜索引擎,爬虫研究现状简介,目前主要的热点研究方向,聚焦爬虫技术智能爬虫技术高性能爬虫技术,聚焦爬虫(FocusedCrawler),对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的不足,提出了面向主题的聚焦爬虫的研究。现在,聚焦爬虫已成为爬虫的研究热点之一。,什么是聚焦爬虫,聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurposewebcrawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页

2、,为面向主题的用户查询准备数据资源。,主要策略,基于内容评价的策略基于链接结构策略基于未来目报价值评价的策略基于“综合价值”评价的策略基于“动态”价值评价的策略(基于“动态”价值评价的搜索策略问题的研究受到重视。),例子,“个性化”搜索引擎的研究专业搜索引擎的研究(垂直搜索),研究的现状,国内:1北京理工大学汪涛等20042.南京大学王超等2004国外研究较多,智能爬虫,随着动态网页技术的发展,网络爬虫越来越困难了。很多动态网页是搜索不到的,例如bbs系统,聊天室系统等。还有很多页面是需要注册为用户并登录才可以看到。所以网络爬虫技术也在逐步发展。智能网络爬虫具有一定的人工智能,它能够自动检测这

3、个网页是否需要注册并登录,然后可以自动登录,看到所有的页面。,智能爬虫,利用网络爬虫技术发展出来的新的网络技术。这种检测爬虫可以自动登录到聊天室、论坛等系统,并随时检查各种信息,从中过滤出敏感信息来。并且可以将敏感信息的来源直接定位到ip地址(这个结合路由器和嗅探器是可以做到的),并且爬虫可以跟踪某个敏感话题的发展,并判断其影响力。爬虫不但可以跟踪网页形式的信息,还可以结合qq的协议,泡泡的协议等,直接检测这些信息。,智能爬虫,数据挖掘是近年的一个研究热点,其中的web挖掘的研究很多结合了网络爬虫的研究。聚焦爬虫和智能爬虫的界限不是十分明显。,研究现状,华东师范大学计算机应用研究所,上海杨德仁

4、等2006南京大学计算机科学与技术系软件新技术国家重点实验室朱炜等武汉大学信息管理学院严亚兰等2003兰州理工大学电气工程与信息工程学院董瑞洪等2005UniversityofCalifornia,LosAngelesJeongheeYi等UniversityofPatras,ChristosMakris等2005,高性能爬虫,算法的研究分布式爬虫设计研究,算法的研究,结合人工智能的一些算法或改进算法基于非贪婪策略的网络蜘蛛搜索算法2004基于模拟退火的网络蜘蛛2003增量式Web信息采集结构模型2005EffectiveWebdataextractionwithstandardXMLtech

5、nologies2002EfficientcrawlingthroughURLorderingbasedonaHiddenMarkovModel(HMM)tolearnuserbrowsingpatterns还有对一些特殊格式网页的抓取的研究,分布式爬虫设计研究(热),基于p2p技术的分布式爬虫CollegeofComputing,GeorgiaInstituteofTechnology,AtlantaAameekSingh1,MudhakarSrivatsa1,LingLiu1andToddMiller1等UniversityofOregon,EugeneDanielStutzbach1Re

6、zaRejaie12005ShanghaiJiaotongUniversity2004LiuFei1,MaFan-Yuan1,YeYun-Ming1,LiMing-Lu1andYuJia-Di1上海大学2005张博锋刘凤周传飞邹国兵等等,基于移动代理的爬虫华中科技大学2005石柯周利兵陶文兵南京大学潘春华冯太明武港山UniversityofChileBlancoEncalada2002RicardoBaeza-YatesA1andJosMiguelPiquerA1AnExtensibleMobile-Agent-BasedFrameworkforCoordinatingDistributedI

7、nformationRetrievalApplications2002,其他基于网格技术的爬虫基于CORBA的并行多元搜索引擎2005黄素珍,梁正友,陈宁江,苏德富基于OGSA结构的2005冯战申,吴亚桢IglooGADistributedWebCrawlerBasedonGridService上海交通大学叶允明等的国家自然科学基金重大国际合作研究项目“Igloo分布式爬虫系统的性能优化”。等等还有好多其他关于分布式爬虫的研究,不再列举了。,总结,近几年,国内关于网络搜索引擎的研究从无到有,直到渐成热点,研究现象的专题聚集特征较为明显。综合性研究论文的数量远远超过该研究领域的细分化专门研究领域的论文数。国外搜索引擎方面研究较热,水平也较国内高。伴随这lucene等一些开源项目又掀起了对搜索引擎研究的一个热潮。在搜索引擎中抓取是消耗较大,又非常重要的部分。那么爬虫的效率,特性和抓取的质量就显得有为重要。那么爬虫技术和人工智能及分布式技术相结合就很自然成为了研究的热点。,Theend,Thankyou!,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!