企业搜索引擎白皮书

上传人:m**** 文档编号:94359877 上传时间:2022-05-22 格式:DOC 页数:9 大小:232.50KB
收藏 版权申诉 举报 下载
企业搜索引擎白皮书_第1页
第1页 / 共9页
企业搜索引擎白皮书_第2页
第2页 / 共9页
企业搜索引擎白皮书_第3页
第3页 / 共9页
资源描述:

《企业搜索引擎白皮书》由会员分享,可在线阅读,更多相关《企业搜索引擎白皮书(9页珍藏版)》请在装配图网上搜索。

1、Mac-ESearch企业搜索引擎产品白皮书全面的全文检索解决方案。为企业解决大量、海量数据下的全文检索应用,并向用户提供高效的、准确的、安全的、个性化的搜索体验。该产品不仅可以应用在网站的全文检索上,也可以中间件模式用于应用系统中的数据检索与分析。2010/3/16第一章前言1.1绪论随着信息技术的不断发展和对信息技术需求的不断增加,世界各国都在经历着前所未有的信息革命。国家的发展离不开信息化,企业的发展离不开信息化。今日的企业在跟随时代的步伐向着信息时代迈进,而且呈现出巨大的生机与活力。信息革命的深入必然带来信息的爆炸性增长。企业信息化后,大量的文件档案信息聚集,从而导致有效信息获取的难度

2、增强和垃圾信息量增加。于是,快速精准地获取有用信息的工具应运而生。宏天信业经过长期积累,形成了相应的企业搜索平台。搜索引擎是信息检索的工具,因此对搜索引擎的研究应属于信息检索的分支。搜索引擎是帮助用户快速精准地从庞大的信息体中搜索到所需信息的工具。越来越多的企业对搜索技术有迫切的需求,这些需求有极强的差异,例如,有的需要的是对文档的搜索,有的需要对网页的搜索等等。图1-1展示了搜索引擎的基本思想。首先搜集目标信息,然后将信息进行分析处理,并按照一定得数据结构进行存储,最后用户从这些被存储的数据中检索出有用的信息。搜索引擎在搜索引擎迫切的需求中诞生,经过多年的发展,我们也开发了适应于企事业的本产

3、品搜索引擎。利用它可以快速地搭建像Google一样的搜索引擎;通过对其配置,可以实现许多强大的功能,而且索引和查询的效率都极高,利用它可以对MSWORDPDFMSEXCELTXT等文本进行处理。从而快速搜索到需要的数据。第二章产品介绍搜索引擎主要是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的产品。本公司搜索引擎产品主要由网络爬虫,索引器/索引库,分词器,查询器四部分模块组成,相对市场相关产品,本公司产品具有以下功能特色。网络爬虫支持广度与深度搜索算法图片及其它相关文件自动下载索引器索引形式与格式自定义支持直接保存入数据库,自定义隐射关系分词器基于语义分

4、析,词性、词频标注人名、地名、单位名自动识别、未登录词识别支持词库接口提供查询、索引维护、应用开发接口提供JAVAASPNETPHRPerl多语言接口其它特色支持外部插件第三章系统架构3.1搜索引擎基本结构图2-1展示了一个可以实现网页和文档的全文检索的中文搜索引擎的基本结构。用户界面图2-1中文搜索引擎基本结构索引库是信息存储的地方,这里的信息已经变成倒排结构。所谓倒排就是通过将文档(Document)词语(Word)的原始结构(如图2-2所示)变为词语(Word)文档(Document)的倒排结构(如图2-3所示)。倒排结构的好处就是可以根据对词语的搜索快速定位到文档,例如:当搜索“宏天”

5、的时候,结果中应该出现“文档T和“文档2”。图2-2文档的原始结构索引器(Indexer)是生成索引的模块,我们将处理过后的信息包装成文档交给索引器,索引器会在索引库中建立该文档的索引(也就是倒排结构)。图2-3文档的倒排结构检索器(Searcher)是信息查询的模块。当用户提交查询词后,检索器会对查询词进行分词等处理,并生成查询请求(Query),然后在索引库中进行查询,并将查询所得结果以一定得格式呈现给用户。索引库、索引器、检索器是搜索引擎的三大核心。完全可以利用这三大模块建立一个简单的搜索引擎,不过这样的搜索引擎只有开发人员才能使用,用户使用将非常吃力,而且不能方便地对各种现存的文件(M

6、SWordMSExcel、HTML等)进行处理,所以真正完善的搜索引擎还需要其他模块的支持。文档解析模块用于解析特定的文件,提取出文字信息并建立文档对象,然后交给索引器进行处理。网页处理模块用于对“网络蜘蛛”(Spider)获取的网页进行解析,提取出文字信息,建立文档对象后交给索引器处理。用户界面是面向最终用户的,它从用户角度出发,提供方便的查询界面,并将查询结果按照用户的需求予以显示。3.2分词器所谓分词就是指将一个完整的句子划分成一个个词条(Token)的过程。由于索引库中数据是一种索引结构,因此需要有一组固定的索引键(Key),又因为索引库是词语一文档的倒排结构,所以这组索引键应该是词语

7、。这就需要将句子进行切分,以获得单个的词语。尽管每种语言都要进行分词,但是英文可以利用空格来作为天然的分隔符。然而对于中文来说,分词的情况要复杂得多。中文分词在中文搜索引擎领域极其重要。首先,中文分词影响查询的效率。而我们的产品的搜索引擎都使用“复合分词法”,提高了搜索的效率。3.3网络蜘蛛网络蜘蛛(WebSpider)也称作网络爬虫,爬行系统等,是搜索引擎的一个重要模块,它从各个站点获取网页文件(这个过程叫抓取)并提取出文字信息,然后交给索引器建立索引6。网络蜘蛛将互联网比作由网页和链接构成的网,网络蜘蛛像蜘蛛爬网一样顺着链接从一个网页跳到另外一个网页。技术层面,网络蜘蛛从一个(或多个)原始

8、站点出发,使用HTTP协议获得网页,通过对所获得的网页的解析,提取出新的链接,并根据一定得策略继续爬行新的链接。网络蜘蛛的爬行策略主要有广度优先策略和深度优先策略。广度优先策略首先爬行第一层的网页,将第一层网页解析所得的发出链接存起来,待第一层链接都处理完毕,接着依次处理第二层的链接,如此一层一层地进行下去。深度优先策略从第一层链接中选取一个,抓取其指向网页并解析出发出链接,然后从发出链接中选出一个继续前述过程,直到达到一定得限制条件后,重返上层选取新的链接进行爬行。两种策略如图2-11所示图2-11广度优先与深度优先策略对比由于互联网极其庞大,我们不可能抓取到互联网上所有的网页,所以特定的搜

9、索引擎都会有一定的限制条件来防止爬虫抓取不必要的文件类型和无休止的抓取。例如,不关心PDF文档的爬虫会首先判断文件类型,并不耗费带宽去抓取PDF文档;某一大型网站的专用搜索引擎会限制爬虫只抓取该网站下的网页。爬虫的设计者和网站开发者之间有一些关于爬行的协议。网站开发人员可以在站点的首层目录下放置一个Robots.txt文件,指明该站点下那些目录可以访问,哪些目录不能访问。网站开发人员也可以建立一个网站地图(SiteMap)来列出该站点所有的网页链接,从而方便爬虫爬行该站点,同时有效地防止漏掉部分链接的情况。3.3搜索引擎响应速度搜索引擎查询结果的相关性固然重要,但响应速度也是必须要考虑的问题,

10、毕竟没有人愿意花一天的时间去等待一个最佳答案。目前的商用搜索引擎中,Google返回的结果量和相关度都高于百度,但百度的响应速度高于Google。可以通过对查询结果的预处理来获得较高的响应速度,我们可以使用缓存技术将一些经常被查询的词的查询结果保存在内存中,当用户输入包含多个词的查询请求时,只需要对这些查询请求进行合并和重新排序即可。查询预处理技术如图2-9所示。图2-9查询预处理技术除查询预处理技术外,分布式技术可将查询任务分担到多台服务器去并行进行,从而提高响应速度。如果将预处理技术与分布式技术结合起来,效果更佳。3.4系统结构图DATAConfigFileDATAConfigFileDA

11、TAConfigFileES-HomES.xmlHTTPClient/BrowserJLTomcat第四章系统硬件4.1硬件环境运行搜索引擎至少需要一个服务器用以安装搜索引擎服务器,索引服务器,网络爬虫服务器。以下配置为最小配置,仅供参考用。应用服务器:IBMSystemx36502*CPU(2.13GHz,E5506CPU),内存,双千兆网卡,SAS146GB*2磁盘阵列:IBMIBM1814-20A:DS5020300G*8(DS5020300GB/15K4GbpsFCDDM双控制器光纤交换机:IBMIBM2498-B24AN24B-4(IBMSystemStorageSAN24B-4Expre)s8口激活,光纤线*84.2系统软件环境平台基于Java语言开发,管理平台为B/S结构,开发语言为JAVA所有平台完全自主知识产权,无绑定任何第三方产品。操作系统支持AIXSolaris、HP/UXLinux、UnixWare开发语言业务平台:Java支持中间件MQ、TuxedoCICSWeblogic、Tomcat、WebSphereJBoss

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!