世界上规模最大的搜索引擎

上传人:小** 文档编号:43042506 上传时间:2021-11-29 格式:DOC 页数:5 大小:39KB
收藏 版权申诉 举报 下载
世界上规模最大的搜索引擎_第1页
第1页 / 共5页
世界上规模最大的搜索引擎_第2页
第2页 / 共5页
世界上规模最大的搜索引擎_第3页
第3页 / 共5页
资源描述:

《世界上规模最大的搜索引擎》由会员分享,可在线阅读,更多相关《世界上规模最大的搜索引擎(5页珍藏版)》请在装配图网上搜索。

1、第1章绪论3第1章绪论世界上规模最大的搜索引擎。1.2-2搜索引擎的发展与现状第一代搜索引擎分为目录式(Directory)和全文式(Full Text)两大类。例 如,Yahoo最初属于典型的目录式分类结构,而AltaVista则属于全文搜索引擎。 但是从搜索引擎的基本类型看,没有一个搜索引擎绝对使用目录式检索或全文 检索,它们更多是一种混合体,只不过是侧重点不同而已。例如Yahoo前期主要 采用目录式检索,但从1996年起,Yahoo先后与Alta Vista, Inkitomi等合作, 在站点上提供关键词检索。1998年Inkitomi的崛起,改变了搜索引擎的格局。 Inkitomi是一

2、家专门制作网页数据库的公司,为Yahoo、AltaVista等100多个 公司提供数据库服务,但它只为其他搜索引擎提供数据库,而本身不提供检索, 将开发商与服务商的角色完全分开。因此,有人很形象地称这些搜索引擎为 uOEMSearchEngi ne n 。=J2000年,Google的出现改变了搜索引擎市场的格局。Google公司是硅谷新 兴的高新技术公司,这家公司推出的搜索引擎号称是目前世界上功能最强大的 搜索引擎,其搜索范围超过了所有其他搜索引擎,处于世界领先地位o Google搜 索引擎还使用了数据挖掘(Data Mining)技术和网站评级方法(Page Rank),开 发了自己的操作

3、系统和优化的文件系统,能在很短时间内完成搜索任务。近年来,随着网络技术在中国的推广和使用,中文网站和网上中文信息资源 的数量急剧增大,而且国内的用户大多还是以访问中文信息为主,据统计,在我中文信息资源的流量占了总信息流量的78%。为了便于用户查找中文信息资 源,中文搜索网站应运而生,并且在海外迅速增长。例如,Yahoo中文、中搜,搜 狗、百度、新浪等。其中百度凭借领先的技术在国内遥遥领先。123搜索引擎的原理我们平时看到的搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的

4、搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。但他们的基本原理都是相同的,都由网络爬虫、索引器、搜索器、用户接口四部分组成。网络爬虫的实现常常 网络爬虫搜集的信息 多媒体信息等,并把网络爬虫的功能是在互联网中漫游,发现和搜集信息。它是一个计算机程序, 日夜不停地运行,尽可能多、快地搜集各种类型的新信息。同时由于互联网上的 信息更新很快,所以还要定期回访已经搜集过的旧信息,以避免死链接和无效链 接。目前有两种搜集信息的策略:一种是从一个起始URL集合开始,顺着这些URL 中的超链(Hyperlink),以宽度优先、深度优先

5、或启发式方式循环地在互联网中 发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多 链接的站点,如Yahoo。另一种是将Web空间按照域名、IP地址或国家域名划分, 每个网络爬虫按照一定深度对一个子空间进行穷尽搜索。 用分布式、并行计算技术,以提高信息发现和更新的速度。 类型多种多样,包括HTML、XML、FTP文件、字处理文档、 采集到的文件分布式存储在各个节点。索引器的功能是分析网络爬虫所采集的信息,从中抽取出索引项,用于表示 文档以及生成文档库的索引表。索引表一般使用倒排索引(Inversion List), 即由索引项査找相应的文档。索引项分为两种。一种索引项与文

6、档的语意内容 无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity) 等;另一种索引项是用来反映文档内容的,如关键词及其权重、短语、单字等。 后者可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文 来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中 文等连续书写的语言,必须进行分词处理。在搜索引擎中,一般要给索引项赋予 一个权值,表示该索引项对文档的重要程度,同时用来计算査询结果的相关度。 使用的方法一般有统计法.信息论法和概率法。索引器一般使用分布式索引算法。当数据量很大时,必须实现即时索引,否 则不能够跟上信息量急剧

7、增加的速度。索引算法对索引器的性能(如大规模并发 査询时的响应速度)有很大的影响。一个搜索引擎的可用性在很大程度上取决 于索引的质量。-搜索器的功能是根据用户的査询在索引库中快速检索出相关文档,进行文 档与査询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反. 馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和 混合模型四种。一般也是采用分布式算法进行搜索结果的合并,提高响应速度。用户接口的作用是输入用户査询,显示査询结果,提供用户相关性反馈机制。其设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。一般采用简洁的用户界面,使用颜色数量也作了限制。另外

8、还可以让用户对查询进行限制,如逻辑运算(与、或、非)、相近关系(相邻、NEAR)、域名范围(如site: sina. com)、出现位置(如标题、内容)等。1.2.4传统捜索引擎的不足目前搜索引擎的确风光无限,在给网民带来许多便利的同时也带来了巨大 的经济效益。但这不代表网民对目前搜索引擎表示完全满意,在CHIP的调查中, 有73.3%的网民认为,搜索结果重复率高,搜索到的网页打不开等是一个令人讨 厌的现象。同时,有54.1%的网民认为个性化内容少,结果雷同也是不可以忍受 的。另外,还有48.3%的网民认为专业/行业搜索功能差,有49.1%的网民认为 信息更新速度慢,有30.1%的网民认为多媒体搜索功能弱。由此看来,搜索引擎 还是需要不断改进和完善,才能满足人们的需要。如图1.1所示:7

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!