搜索引擎实验

上传人:z**** 文档编号:100645340 上传时间:2022-06-03 格式:DOC 页数:7 大小:48KB
收藏 版权申诉 举报 下载
搜索引擎实验_第1页
第1页 / 共7页
搜索引擎实验_第2页
第2页 / 共7页
搜索引擎实验_第3页
第3页 / 共7页
资源描述:

《搜索引擎实验》由会员分享,可在线阅读,更多相关《搜索引擎实验(7页珍藏版)》请在装配图网上搜索。

1、搜索引擎实验实验报告网址:以谷歌搜索引擎为例:一、搜索引擎简介搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。现在的搜索引擎有百度、谷歌、雅虎、搜狗、迅雷等等。下面介绍下谷歌的工作原理:Google采用了两个重要的特性,因此而获取了准确的查询结果:第一,Google利用网页的链接结构计算出每个网页的等级排名,这就是所谓的PageRank第二,Google利用了链接提供的信息进一步改善搜索结果。Google使用两个探测器来抓取网站上的内容:Freshbot和Deepb

2、ot。深度探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之中。刷新探测器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起来,Google是发现了一个新的网页,之后再频繁地再访,来看看是否还有什么新的更新。如果有,这个新网站就会被加入到刷新探测器的名单中进行访问。刷新探测器取得的结果是汇总在一个单独的数据库里。每一次刷新探测器进行新的一轮循环的时候都被重写。刷新探测器和Google的主要索引是合在一起提供搜索结果的。Google的操作模式收集-采编/索引-反馈的工作程序。事实上,搜索引擎包括以下几个元素。抓取状态:搜索引擎派出探测器到互联网上

3、不知疲倦地搜集网页。网页仓库:搜索来的网页要集中在一个地方存储,等候索引处理。索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原始网页资料被删除掉。索引状态:将压缩后的网页编目在不同的索引之下。问询状态:将用户问询所用的白话转换成搜索引擎读的懂的计算机语言,来咨询各个索引求得相关答案。排名状态:搜索引擎将相关答案根据一定的标准以列表的形式排列给用户。搜索引擎认为最好的答案被推荐在首位,较次的排列随后,以此类推。Google的数据中心高度机密,我们能了解到的不多:1. 在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的世界各地。2. 每个数据中心有50万平方英尺

4、那么大,建造一个数据中心要花费约6亿美丿元。3. Google数据中心是世界上最高效的设施之一,而且也非常环保,几乎没有碳排放。4. 数据中心使用50到100兆瓦的电力,由于需要冷却,通常建在便于用水的地方。5. Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。Google处理流程:1. 你写博客、或在Twitter上推微博、更新站点等诸如此类往web上添加内容的操作Google爬虫(一种作为搜索引擎构件的智能代理程序)抓取你网页的title和description、keyword等内容。2. 一旦被Google爬虫访问到,网页几秒内就被索引了3. Go

5、ogle基于链接评估域名和网页的总体PageRank值。4. 检查网页以防止作弊行为在对页面做了损害分析后,现在每个页面都有很多用于辅助用户搜索的数据片(比如检索关键词)反向引用着它5. 用户发出搜索请求6. Google会用同义词匹配与你的搜索关键词语义相近的查询结果。7. 生成初步的查询结果。8. 对查询结果集按权威性和PageRank进行排序,重复的查询结果被剔除。9. 对查询结果进行过滤处理10. 最终返回给浏览器端的用户一个人性化的、布局良好的、查询结果和广告泾渭分明的有机查询结果页面。二、谷歌搜索引擎特点1、变化较快、机动性较高Google漫游器会定期抓取Web,将大量网页列入索引

6、。稍后完成的下一次抓取会注意到新网站、对现有网站的更改以及失效的链接,并对内容的变化在搜索结果中加以调整。2、敏感度较高,反应较快Google对新建的网站具有较高的查知性,当然,新建的网站必须要有外部链接或者向Google递交过网站登录信息。否则,即使Google的搜索技术再厉害,一个只有站长一个人看得见的网站是很难被Google发现的。Google收录新建网站的两个途径是:第一,通过网站的外部链接;第二,通过向Google提交网站登录数据。一般而言,后者的收录速度相对较快,而前者则要视Google对新建网站的外部链接网站的收录频率而定。如果Google对外部链接网站的评价高、收录频率高那么其

7、发现新站的速度也相应地高,新建网站被收录的日期就会被提刖。3、较重视链接的文字描述Google会将链接的文字描述作为关键词加以索引,所以我们在作友情链接时千万要仔细设计链接的文字描述,使之既符合网站的定位又不失相关性,以此博得Google的信任。4、相关性和重要性并重Google使用PageRank技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google才将最相关最可靠的搜索结果放在首位。这也是Google收录网页的特点之一。5、较重视网页Meta标记的描述大多数时候Goog

8、le显示搜索结果时会把网页的Description显示出来,并占有较重的篇幅。三、搜索引擎的体系结构下面我们参考著名的搜索引擎Google(),来介绍搜索引擎的结构搜索引擎一般由网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶bar2rels,文件索引等)、排序器Sorter和搜索器Searched个部分组成.网络爬行机器人(一种网页自动搜索软件,又称为网络蜘蛛):其功能是在互联网中漫游,发现和下载信息.它要尽可能多、尽可能快地搜集新信息和定期更新旧信息,避免死连接和无效连接,因此网络爬行机器人的实现常采用分布式、并行计算技术,以提高信息发现和更

9、新的速度.有一个辅助系统,URL系统负责向网络爬行机器人提供URL地址.顺便提一下,URL系统还又一个模块,叫做链接描述文件,记录一些链接信息,用于计算网页的重要性,为排序提供依据知识库:网络爬行机器人下载的网页以一定的格式存储在知识库中,以便查询索引系统:知识库往往很大,不便查询,为此需要对知识库建立索引.其功能是理解知识库中的信息,从中抽取出索引项,生成索引表索引器可以使用集中式索引算法或分布式索引算法大型搜索引擎的索引器往往还包含若干模块:桶,字典,文件索引等排序器:把搜索到的网页排序网页是按一定的顺序提供给用户的一般每个网页有一个值,表示这个网页的重要性,称为Rank值.网页就是按照R

10、ank值从大到小排序的.如何计算Rank值,有不同的算法,而且要考虑各个方面对重要性的影响典型的Rank算法有PageRank等.搜索器:一般利用一个Web服务器,根据用户的查询在索引器中快速检出文档,利用排序器的结果,把查询结果提供给用户。搜索引擎体系结构四、谷歌搜索引擎的优缺点优点:1、节约搜索时间,结果页面会自动、实时的更新。2、整合了全球范围的信息,使每个访问者都可以从中受益。3 、在输入词条关键词时可使用逻辑语句。4 、搜索结果的准确度比高,且在学术搜索方面搜索的结果具有很强的学术性。5 、率先开发了地图搜索。6 、谷歌支持多种搜索语言。缺点:1、操作过于复杂,偏好选择,比较麻烦。2

11、、死链接率比较高,中文网站更新的频率不够高。3、谷歌排名的波动比较大,且一些不是很热的关键字的更新速度比较慢。4、有时候服务不够稳定。五、搜索引擎的重要作用1、网络有很多的文章都有提到应该要多关注用户,互联网上各种各样的互动平台,让用户变的更加主动,索引擎已经将用户所产生的一些信息列入了排序因素中。用户对SEO起到的影响,绝对是不能忽视的。而在实际上用户能对SEO产生什么样的影响以及如何能够让用户来帮助网站提升SEC效果,现在来说还是一个未知数。搜索引擎对网页结果的排序,是希望基于真实、民主、权威的角度。搜索引擎不希望所有的搜索结果都是依靠一系列的算法来筛选出来的客观搜索结果。所以,用户信息因

12、素相对与链接因素来说,用户的信息会更真实、更客观、更权威。从可信度上来说,它更值得信赖。另外一个因素就是Web2.0,互联网上出现各种各样新的网站应用。搜索引擎也必须更新自己的爬虫、算法,以求能够更好的能够顺利读取到这些新应用上的信息。所以,从搜索引擎的角度来讲,它需要读取这些有价值的信息来为排序提供一些依据,同时也需要将这些新的网站应用当成搜索结果来提供给用户。很多的SEO都认为用户对网站优化产生的影响,就是体现在更新频率上,这也算是一个帮助之一。一个用户非常活跃的论坛每天产生大量帖子,确实能够提升网站的权重,让搜索引擎重视它。最好的例子就是一些大型的社区站点,例如天涯等。也就是说,一个互动

13、性非常好,用户非常活跃的网站,能提高搜索引擎蜘蛛的访问频率。用户信息的价值又该如何体现出来呢?如何优化用户信息?用户信息虽然很有价值,但是它是比较零散的,搜索引擎要抓取这些信息也有一定的难度。所以,结构化、规范性的信息对搜索引擎的爬取更加有利。让这些信息完整的显示在HTML弋码当中也是有助于让搜索引擎收录的简单的方法,除此之外我们还可以通过XML地图、RSS等新的应用来辅助提高这些信息的收录。用户对SEO的作用是非常大的,良好的用户体验能更好地获得搜索引擎的青睐,从而提高网站的流量,以上简单讲述了个人的见解2、搜索引擎是网站建设中针对用户使用网站的便利性所提供的必要功能,同时也是研究网站用户行

14、为的一个有效工具。新竞争力认为,高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。因此,对于内容丰富的大型信息类网站和产品线丰富的在线销售型网站来说,提供一般性的全文检索是远远不够的,很有必要开发能够实现个性化需求的高级搜索功能,这也是体现网站的网络营销功能的重要方面。搜索引擎作用搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的一个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且

15、通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。从网络营销的环境看,搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用。 从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终端客户传递信息的重要环。六、结论随着Internet的迅速发展,搜索引擎的应用越来越广泛,但是它还不能满足用户的需要,有很多新领域有待开发,例如,音频、视频、多媒体搜索引擎才初露头角,人工智能,数据挖掘等新技术的应用,都将改进搜索引擎的性能,分词算法的改进也能大大提高搜索的质量搜索引擎中的很多技术,例如分词算法,Web数据挖掘等都是当今研究的热点。班级:电子商务2010(2)学号:2010517044姓名:史岩飞

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!