数学公式搜索索引的构建及工作进展.ppt

上传人:max****ui 文档编号:14551715 上传时间:2020-07-23 格式:PPT 页数:13 大小:630.50KB
收藏 版权申诉 举报 下载
数学公式搜索索引的构建及工作进展.ppt_第1页
第1页 / 共13页
数学公式搜索索引的构建及工作进展.ppt_第2页
第2页 / 共13页
数学公式搜索索引的构建及工作进展.ppt_第3页
第3页 / 共13页
资源描述:

《数学公式搜索索引的构建及工作进展.ppt》由会员分享,可在线阅读,更多相关《数学公式搜索索引的构建及工作进展.ppt(13页珍藏版)》请在装配图网上搜索。

1、Nutch介绍及搭建,1.Nutch介绍 2.Nutch搭建搜索及演示,1.Nutch介绍,构建搜索引擎首先要从网上获取网页数据。这项工作通常使用专业的软件来完成,该软件被大家成为网络蜘蛛(Spider)。网络蜘蛛实际上是一个Socket程序,采用HTTP网络协议访问网页。这些网页提供给搜素引擎加工处理,就形成能够检索的信息。,1.Nutch介绍,Nutch是一个纯Java程序,平台无关性。用户可通过源码对Nutch进行修改和重新发布,通过Tomcat等Web服务器可以进行检索。 Nutch主要分为两个部分:爬虫crawler和查询searcher。crawler主要用于从网络上抓取网页并为这

2、些网页建立索引。searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。,1.Nutch介绍,Nutch系统包含一个功能强大的网络蜘蛛。其核心是Crawl工具。这个工具根据事先设定的入口URL列表,不断地自动下载页面,直到满足系统预设的停止条件。Crawl本身是另外一系列页面下载相关工具的组合。 网络蜘蛛的存在使Nutch区别与Lucene,是一个完整的搜索引擎。Nutch的网络蜘蛛按照一定的数据结构存储,便于所引起建立Lucene索引。一般的网路蜘蛛之负责下载并按照一定格式存储网页,并不关心后续系统如何处理。,1.Nu

3、tch介绍,网页的下载任务可以使用Crawl命令独立完成,也可使用底层的admin、inject、generate、fetch和updatedb命令组合完成。而Crawl命令的内部也是调用底层命令的对应函数实现的。 admin:用来创建一个新的Web数据库。建成的数据库包含目录和数据存储结构,初始数据状态为空,需要后续命令来填充内容。其中的URL数据库,用来存放相关信息。 inject:添加数据下载的入口链接。首先读取给定的纯文本格式文件,获取URL列表,作为入口地址添加到已有的Web数据库中。 generate:生成待下载的URL列表。按照Web数据库格式提取未下载的URL,以fetchli

4、st形式给出,为下载做好准备。,1.Nutch介绍,fetch:按照HTTP协议访问互联网,获取网页的数据具体内容。下载过程由下载列表和操作参数控制,直到下载完毕。 updatedb:用来添加网页下一层链接的URL。从已经下载的文件中获取URL链接,更新Web数据库,添加到已有的Web数据库。,分析提取页面内容,Generate提取待下载列表生成下载任务,Inject添加入口URL地址,Createdb创建Web数据库,索引检索,fetch下载模块,网页页面内容,待下载URL列表,Web,页面正文,updatedb下级URL链接,URL列表文件,获取页面,图1 Nutch网络蜘蛛结构图,1.N

5、utch介绍,1.Nutch介绍,下载后的数据存储主要以目录文件形式存放。具体内容包括Web数据库、数据段(segments)和数据索引。 Web数据库(web db):即URL数据库,存储网络爬虫抓取的网页信息和网页之间的链接信息。 数据段(segments):存放网络爬虫每一次抓取使用的待下载列表、已获得的网页内容和本次内容的索引。 数据索引:是数据段索引的合并和汇集。索引的数据包含了系统所有页面,以倒排索引的形式组织。,CrawlTool工具,Web,网页页面内容,nutch-site.xml文件,输出,crawl-urlfilter.txt文件,待下载URL列表文本,下载,图2 Nutch网络蜘蛛的工作机制,1.Nutch介绍,2.Nutch搭建搜索及演示,Ubuntu 11.04 Jdk 1.6 Nutch 1.2 Tomcat 6.0,2.Nutch搭建搜索及演示,命令:bin/nutch crawl urls dir localweb depth 2 topN 30 threads 2 -dir,指定存放爬行结果的目录 -depth 2,表明需要抓取的页面深度为2层内容 -topN 30,指明之抓取每一层的前N 个URL,本次为取每一层的前30个页面 -threads 2,指明Crawl采用两个下载线程进行下载,参考: Lucene+Nutch搜索引擎开发 ,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!