个性化元搜索引擎的研究与设计

上传人:仙*** 文档编号:27968814 上传时间:2021-08-22 格式:DOC 页数:10 大小:101.51KB
收藏 版权申诉 举报 下载
个性化元搜索引擎的研究与设计_第1页
第1页 / 共10页
个性化元搜索引擎的研究与设计_第2页
第2页 / 共10页
个性化元搜索引擎的研究与设计_第3页
第3页 / 共10页
资源描述:

《个性化元搜索引擎的研究与设计》由会员分享,可在线阅读,更多相关《个性化元搜索引擎的研究与设计(10页珍藏版)》请在装配图网上搜索。

1、目录目录11 引言21.1 课题背景21.2 研究的目的和意义21.3 国内外现状31.3.1 搜索引擎31.3.2 元搜索引擎31.3.3 元搜索引擎的分类31.3.4 元搜索引擎的性能评价指标体系41.3.5 元搜索引擎的国内外相关研究工作51.4 主要研究内容51.5 论文结构62 相关技术72.1 引言72.2 常见元搜索引擎的原理及体系结构72.3 元搜索引擎的检索结果合成技术72.3.1 去重82.3.2 排序82.3.3 结果排序中的主要算法82.3.4 结果排序中存在的问题82.4 元搜索引擎的检索接口技术92.4.1 统一的检索界面92.4.2 查询表达式转换技术92.4.3

2、 成员搜索引擎的调度策略99个性化元搜索引擎的研究与设计1 引言1.1 课题背景随着Internet以及相关技术的发展和成熟,人们已经进入了信息量极大丰富的时代。自从1991的Internet诞生以来1,它已经发展成为拥有约上亿用户和几千万个站点、十几亿个网页的巨大分布式信息空间,而且这数字仍以每四个月以第六个月翻一番的速度迅猛增长。由Internet Domain Survey统计,从1996年到2001年,Internet上的主机数量从两千万增长到一亿四千万。Internet作为一个信息平台在人们的生活和工作中发挥越来越重要的作用,人们越来越多地通过Internet获取信息。然而在信息极大

3、丰富的同时,用户也面临着信息过载和资源迷向的问题。Internet上的信息过于庞杂,而且具有不稳定和变动快的特点,没有也不可能有一个权威机构能对这些信息进行全面的整理和归类,因此,往往用户面对五花八门、扑面而来的各种信息显得无所适从,不知道如何去获取自己需要的内容。如何在浩瀚如海的信息空间里,快速查找并获取所需的信息己成为信息时代最根本的问题之一。网络搜索引擎在网络信息资源检索中起到了重要的作用,它可以帮助用户从数以亿计的网络信息库中找到自己所需要的信息。搜索引擎是Internet上的一种在线服务方式,是一种用于帮助用户查询网络信息的检索工具。它以一定的策略在互联网中搜集、发现信息,对信息进行

4、理解、提取、组织和处理,然后为用户提供检索服务,从而起到了信息导航的目的。1.2 研究的目的和意义因特网上的信息浩如烟海,优劣混杂,缺乏统一的组织和管理,给人们有效地查询和利用信息带来了很大的不便,搜索引擎就是为了开发和利用这些网络信息资源而产生的网络信息查询工具,它己经成为因特网中最重要的部分,是目前网络用户获取网上丰富信息资源的一个重要途径,但传统的独立搜索引擎存在着信息资源覆盖率低、检索效率较低等问题。因为任何一个独立的搜索引擎都无法穷尽所有的Web信息资源,而且对于同一个查询请求,不同的搜索引擎因其工作机制不同,得到的结果中重复率也较低。因此在很多情况下人们为了获得更高的查全率,需要同

5、时使用具有不同数据搜索范围的搜索引擎,这就增长加了检索的不便,元搜索引擎就是在这种情况下诞生并发展起来的。现在己经出现了一大批元搜索引擎,其中以英文元搜索引擎较多,发展较好,而中文搜索引擎发展缓慢。目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。另外很多主流的搜索引擎提供的服务没有考虑每个个体用户的需求,没有考虑用户的差异。本文就是要在研究现有元搜索引擎存在的局限性的基础上,设计出一个结构较合理,功能较优越,同时能够融合很多相关领域技术,体现个性查询的元搜索引擎结构模型,为查询效率更高的检索工具的早日实现做出贡献。1.3 国内外现状1.3.1 搜索引擎搜索引擎是指能够自动地

6、对WWW资源进行分析处理,并通过查询为用户返回匹配资源的系统。它一般是Internet上的一个网站,它的主要任务是将互连网资源存储于可供查询的大型数据库中。当用户输入关键字查询时,搜索引擎依据此关键子在索引数据库中查找相关信息,若索引数据库中有这方面的信息,则将信息反馈给用户;若没有则调用搜索方法进行搜索,并在一定时间界限内向用户反馈信息。1.3.2 元搜索引擎元搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给各个调用的搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引

7、擎再把从各个搜索引擎返回的结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格式返回给用户。一般元搜索引擎技术主要有三部分构成4:查询请求机制、检索接口代理机制、检索结果处理机制。查询请求机制:实现用户的个性化检索设置的要求、成员搜索引擎的调度方案、检索时间的限制、返回结果量的限制;检索接口代理机制:实现将用户的个性化查询请求转化为可被成员搜索引擎识别的固定格式;检索结果处理机制:实现把调用的成员搜索引擎检索到的结果去重、合并、排序和按一定的格式返回给用户。1.3.3 元搜索引擎的分类元搜索引擎是一种基于搜索引擎的搜索引擎,又称为多元搜索引擎或集合式搜索引擎。它可以把多个搜索引擎

8、集合在一起,提供一个统一的检索界面,将查询表达式同时提交给多个搜索引擎,并行检索多个数据库,再对返回的结果进行去重、排序等二次加工后向用户输出搜索结果。元搜索引擎根据不同的标准可以划分为不同的类型5。根据检索机制可以划分为集中罗列式元搜索引擎和统一入口式元搜索引擎,以下对这两种类型的元搜索引擎作详细介绍。集中罗列式元搜索引擎 集中罗列式元搜索引擎按照一定的形式将所有的独立搜索引擎集中呈现在页面上,并提供了一个公共的检索入口,但实际上用户一次只进入一个独立搜索引擎。这种类型元搜索引擎的结果反馈页面多直接引用原始搜索引擎的结果页面。从表面上看,这类元搜索引擎与独立搜索引擎具有更多的相似点,它们的特

9、点是:一次检索一个搜索引擎。检索结果直接调用原始独立搜索引擎的结果页面。只支持原始独立搜索引擎支持的检索语法统一入口式元搜索引擎 统一入口式元搜索引擎为收录的独立搜索引擎建立了一个公共查询入口,用户发出检索请求后,提问表达式被分别提交给多个独立搜索引擎,最终反馈的结果是多个独立搜索引擎查询结果的融合。根据结果显示的不同,这类元搜索引擎又可以分为直接调用原始页面型、混合综合型和分散综合型。直接调用原始页面型元搜索引擎, 检索结果直接来自原始搜索引擎站点的结果页面。混合综合型元搜索引擎,将各个独立搜索引擎中查找的结果进行融合,结果显示以记录为单位,记录描述包括该记录被检出的来源。分散综合型元搜索引

10、擎,这种类型与混合综合型元搜索引擎在结果显示上有所不同,它以独立搜索引擎为单位进行结果显示,在同一个独立搜索引擎得到的结果被集中列在该搜索引擎之下。1.3.4 元搜索引擎的性能评价指标体系作为一种搜索引擎,元搜索引擎也有搜索引擎的一些基本指标,如查全率、查准率、召回率、响应速度、响应时间、用户负担等。但是元搜索引擎个体差异很大,很难进行精确的评价。元搜索引擎性能评价指标体系主要包含四个部分6:独立搜索引擎的调度策略 有些元搜索引擎固定地调用几个独立搜索引擎,用户不能修改。有些元搜索引擎的高级特性中让用户选择调用哪些搜索引擎。这两种策略都有不足之处,前一种将跟不上搜索引擎的发展潮流。后一种,对于

11、不熟悉搜索引擎的用户来说可能选择不到适合自己需要的搜索引擎。一些学者提出了通过遗传算法实现独立搜索引擎的自动调度方法。这种算法如能融入到元搜索引擎系统中,必会大大提高系统的查准率。是否提供足够的检索选项 包括是否提供高级检索服务,是否可以限定最长检索时间,是否可以设置每个搜索引擎返回的结果数量,是否可以设置每页显示的结果数目,是否可以设置标题大小和摘要大小等。检索选项越多,用户使用的时候就越灵活。这也是衡量一个元搜索引擎性能的一个标准。但是由于元搜索引擎的检索特性向它所调用的独立搜索引擎检索特性的转换所具有的复杂性,许多元搜索引擎不提供复杂的检索特性。对搜索结果的处理能力 对独立搜索引擎返回的

12、搜索结果的处理能力,这也是评价元搜索引擎性能的又一重要指标。它包括结果的处理和结果的显示。不同的元搜索引擎提供不同的结果显示方式。如按照时间、按照搜索引擎、按照相关度等来排序。相比之下按照相关度来显示搜索结果更合理一些。相关度评价 每个搜索引擎开发商为了将最满意的结果放到越前面,不遗余力地创建出各种相关度指标体系,虽然没有一种方法是完美的,但都有创新和独到之处。面对这些众多的相关度评价指标,按照怎样的方式对成员搜索引擎返回的结果进行一致性的排序是元搜索引擎结果处理部分面临的主要问题。1.3.5 元搜索引擎的国内外相关研究工作1.3.5.1 国外的主要元搜索引擎MetaCrawler是一个并行式

13、元搜索引擎,同时调用6个独立Web引擎;提供全面的用户接口与丰富的逻辑检索功能;排序是基于评分策略的,同时有效地消除了大量的重复结果,保证了高质量的搜索结果。ProFusion是并行式元搜索引擎,在智能化的搜索技术、对查询的使用提示和个人化搜索服务方面做得比较优秀,同时调用9个独立Web搜索引擎;可个人化选定几个自己喜欢的搜寻引擎;具有过滤搜索结果,可滤掉重复的链接以及断掉的链接(不存在的链接);可以让你设定个人常用的搜索字符串,一但其数据库中有新的记录ProFusion会主动通过email提示你有新的搜索结果,很适合需要最新科研动态的人员。SavvySearch可以从700多个搜索引擎、We

14、b目录、拍卖站点、门户、新闻资源、讨论组和参考站点返回结果;专注于研究大量的搜索引擎在不同主题或领域的检索效率以及访问一个搜索引擎需要的资源代价,由此为用户选择最优的搜索引擎进行检索。1.3.5.2 国内的主要元搜索引擎3721疯狂搜索是国内做得比较好的商业化元搜索引擎,采取联合搜索的模式,同时检索数10个中文搜索引擎;融合结果是基于URL的唯一性和标题/简介与检索词的相关程度以及标题/简介的文字长度;排序主要考虑检索结果的标题/简介与检索词的相关程度、结果来自多少个独立的搜索引擎、搜索结果在这些引擎中的排列位置、搜索引擎的权威性等;相关性、优先级和权值越高的结果排序越靠前。万纬中文元搜索是并

15、行的中文元搜索引擎,调用9个支持中文检索的Web搜索引擎;可以选择最大等待结果时间;搜索结果可按相关度、时间、域名和引擎分类。根据Google、百度和雅虎等搜索引擎搜索元搜索引擎,并通过一些著名的引擎指南网站所提供的线索来确定有代表性的中外元搜索引擎,然后对检索出的元搜索引擎进行简单的测试。1.4 主要研究内容研究搜索引擎技术。分析独立搜索引擎结构及功能,并对搜索引擎中所采用的主要算法进行研究,探讨其存在的问题及解决方案。研究元搜索引擎技术。介绍元搜索引擎的涵义、特征及其体系结构、实现原理,分析元搜索引擎实现的主要技术,重点论述元搜索引擎的检索接口技术和搜索结果二次排序技术,并选取几个典型的元

16、搜索引擎进行比较,在此基础上讨论元搜索引擎所面临的问题,进一步提出对现有元搜索引擎的改进方案,这是本课题研究的重点部分。改进的元搜索引擎系统设计。设计一个个性化的元搜索引擎系统,并结合实际情况实现一个实验系统,与搜索引擎进行比较,强调个性化元搜索引擎研究的意义。结果的评价与比较。对改进的元搜索引擎结构进行性能分析和评价,利用实验系统进行实验分析、比较,最后给出实验结果及评价。1.5 论文结构本文的主要内容组织如下:第一章是引言,简述了本文的研究背景,通过分析现有传统搜索引擎的发展现状及不足之处,分析了发展个性化的元搜索引擎的必要性及现状。第二章是相关技术,第一部分讲述元搜索引擎的检索接口技术,

17、包括查询表达式转换技术、成员搜索引擎的调度策略、检索结果的输出形式。第二部分讲述元搜索引擎的检索结果合成技术,包括去重、排序、排序中的主要算法以及排序中存在的问题进行了分析。第三章是系统的设计与实现,首先对常见元搜索引擎进行了研究,其中以元搜索引擎原理与结构为主。然后简单介绍了本文的个性化元搜索引擎的体系结构,然后依次介绍其各模块功能,分析了元搜索引擎的结构及实现的主要技术,重点论述元搜索引擎的检索接口技术和搜索结果融合技术,为元搜索引擎的实现奠定了基础。然后再对数据库进行了设计,并在最后对整个系统的流程用简单流程图进行了图示。整章内容阐述了个性化元搜索引擎系统的设计,包括主要的设计思想和具体

18、实施方案、体系结构、数据库设计,以及系统的流程图。2 相关技术2.1 引言随着Internet网上信息的剧增,人们在利用计算机检索信息时变得越来越困难。一方面是信息非常丰富,收到太多的信息却无从选择和消化:另一方面是信息迷失,人们难于找到自己真正所需的信息。原因是:当前的信息检索技术很少考虑用户的个人兴趣。由于不同的用户有不同的需求,所以显然不能满足各种用户的需要。解决该问题的一个方法是:在准确、动态地描述用户的兴趣和偏好的基础上,使搜索结果呈现出个性化的特点。正如本文第一章中所介绍的,单个搜索引擎返回的结果相关度和准确率都不高,要想获得一个比较全面、准确的结构,就必须反复调用多个搜索引擎。元

19、搜索技术就是为了解决传统搜索引擎的上述不足而提出的。为了能够专注于个性化搜索技术的研究,不至于陷入对不必要的内容的详细讨论,本文选择元搜索引擎来实现个性化检索。选择元搜索引擎主要有如下几点好处。2.2 常见元搜索引擎的原理及体系结构互联网上的大量信息给互联网的使用者带来了很严重的挑战。用户想要在网上找到所需要的信息变得非常困难。因为每一个搜索引擎都只能收录一部分网页内容。元搜索引擎,在一定程度上解决了这个问题。元搜索引擎可以将用户的检索词转发给多个底层的搜索引擎,使用户不必直接跟底层的各个搜索引擎交互。这样就相当于增加了搜索引擎的信息覆盖面。一般来说,元搜索引擎主要包含以下功能:查询处理、查询

20、转发、结果合并、结果显示等。元搜索引擎信息融合阶段:对不同基本搜索引擎的结果,有些网页实际无法正常连接,有些是重复的,有些网页不是重复但属于同网站内容相关性较大的,故需要进行网页链接检测、消除重复网址等处理流程,并根据相关度算法进行计算,存到数据库中。2.3 元搜索引擎的检索结果合成技术结果信息的融合是元搜索引擎最核心的问题,一个元搜索引擎的性能很大程度上是由这一部分决定的。每个搜索引擎都会向元搜索引擎返回一个检索结果列表,它们检索的标准和排序算法各不相同,如何将所有搜索引擎的反馈结果整合成一个单一的结果列表,客观地综合参考各搜索引擎的相关性评价,在最后结果中精确地体现相关性和重要性,是非常复

21、杂和值得研究的问题。检索结果的整合包括去重和排序9。2.3.1 去重URL地址相同,保留更新时间最新的一条记录信息。URL不同,内容相同。造成这种结果的原因有信息转载等,用特定的算法,结该URL所对应的页面生成摘要:如是两个不同的页面产生了相同的摘要信息,就可以认为他们是同一内容,结此将并列标注出多个可以访问的URL地址。相同起始子串的URL。返回的搜集信息密集存放在某站的某目录下,可以将此类信息归类整合,以URL的起始子串的形式显示。2.3.2 排序优秀的元搜索引擎应该能够将返回的结果按相关性降序排列。但这很困难。首先,并不是所有的成员搜索引擎都愿意向元搜索引擎返回本地相关性文件。另外,即使

22、所有的成员搜索引擎都返回文献的本地相关性。但由于各个引擎计算本地相关性性的算法差异很大,所以这里相关性文件的相关性计算算法了。2.3.3 结果排序中的主要算法结果排序的典型算法有三种10:间隔排列合成法 如果文档的原始顺序一致辞,先把每个独立搜索引擎检索结果中的第1项交叉列出,依此类推。分值合成法 如果可以得到文档的原始相关性分值,那么当这些分值可以直接比较时,则可以采用原始分值合成法;直接依据每个文档的原始相关性分值决定其合成排列次序;如果文档的原始分值不能直接比较,则可以采用规范分值合成法:通过对其进行标准化来得到规范的相关性分值,并以之作为依据确定文档的合成排列次序。加权分值法 首先计算

23、出各个检索结果相应于检索条件的重要性,再以此为权乘上文档的相关性分值作为决定其合成排列次序的根据。本文在结果输出的排序方面,采用的是的方式。用户在通过输入关键字,选择搜索引擎进行查询之后,程序把从各个成员搜索引擎得到的结果,进行去重之后,按照间隔排列合成法的方式对查询结果进行排序。2.3.4 结果排序中存在的问题每一个成员搜索引擎都有自己的排序检索结果算法,根据用户所给定查询的相关度来排序文件。然而,这些方法千差万别,通常每一个算法都是某一搜索引擎提供者所特有的,并且算法不公开,这就使得融合以及排序来自不同数据源的数据结果变得非常复杂。简单的处理方式是以搜索引擎为单位,在选定的搜索引擎下面显示

24、比较靠前的结果;复杂的处理方式是以记录为单位,综合判定某一记录在多个搜索引擎中被评价的指数。但是要综合考虑各个成员搜索引擎所给出的相关度,这里需要解决相关度的规范化和均衡化问题。2.4 元搜索引擎的检索接口技术Internet上的信息量巨大,如果不对信息进行必要的筛选,搜索引擎会给用户返回很多无用信息。对信息进行必要的筛选和二次排序,使检索结果更符合用户要求,是元搜索引擎必须具备的功能,而这些功能正是由查询接口实现的。查询接口在实现过程中往往采用信息检索系统及信息过滤系统中的技术。信息检索系统及信息过滤系统之间有很多相似点,两者都着眼于选择符合用户需要的信息。不同之处在于:在信息检索系统中,着

25、重于解决用户如何主动地从巨大的信息空间中寻找相关地信息;而对于信息过滤系统,则着重于解决如何从动态传给用户地信息中被动地筛选出相关信息。从这一点来看,元搜索引擎是一个集信息检索与信息过滤于一体地综合信息系统。2.4.1 统一的检索界面用户与系统进行交互的界面。用户通过此接口输入查询请求、设置查询方式,系统的最终检索结果也将通过此接口返回给用户。多数元搜索引擎向用户提供了一般检索和高级检索。元搜索引擎还可以通过该接口记录用户的查询请求,分析用户的检索行为,为搜索引擎的个性化服务提供依据。2.4.2 查询表达式转换技术元搜索引擎提供了统一的检索界面,而不同的搜索引擎有不同的检索语法和操作符使用技巧

26、。因此,需要根据不同的搜索引擎将用户的查询要求分别转换成可以进行检索的查询表达式。2.4.3 成员搜索引擎的调度策略现有成员搜索引单调度技术 元搜索引擎的调度策略是研究元搜索引擎如何为用户选择数量合适并贴近用户查询需求的成员搜索引擎,以较小的资源耗费,帮助用户获得较高的查询。如何选择成员搜索引擎是在元搜索引擎实现的过程中要解决的一个关键的问题。如果元搜索引擎的每个成员搜索引擎数量很多,那么将查询送到每个成员搜索引擎的策略就不再适用了。因为那样会将查询传送到无用成员搜索引擎上,会产生下面一系列后果:造成不必要的通信资源浪费从那些无用的成员搜索引擎传输无用文件到无搜索引擎,会造成不必要的通信资源浪费。当无用的成员搜索引擎在处理查询时,其资源就会被浪费;当无用的成员搜索引擎返回大量的文件时,元搜索引擎需要花费很大的代价来识别出对用户有用的文件。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!