网络信息检索及其局限性

上传人:众众****夺宝 文档编号:116817509 上传时间:2022-07-06 格式:DOC 页数:5 大小:18KB
收藏 版权申诉 举报 下载
网络信息检索及其局限性_第1页
第1页 / 共5页
网络信息检索及其局限性_第2页
第2页 / 共5页
网络信息检索及其局限性_第3页
第3页 / 共5页
资源描述:

《网络信息检索及其局限性》由会员分享,可在线阅读,更多相关《网络信息检索及其局限性(5页珍藏版)》请在装配图网上搜索。

1、网络信息检索及其局限性【关键词】网络信息信息检索搜索引擎1网络信息检索简介随着信息技术的飞速开展,信息已成为全社会的重要资源,对信息的占有程度及信息处理程度的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、开展最为迅速的信息网络,基于internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性。1.1信息检索概念信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主

2、要有:传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进展文献的查询和获取活动;联机信息检索相对于前者来说具有实时性、完好性、共享性、广泛性等优点;网络信息检索是指通过网络信息检索工具检索存在于internet信息空间中各种类型的网络信息资源。1.2网络信息检索的原理网络信息检索工具是网络信息检索技术的实物表达。目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。布尔逻辑模型这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档构造确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关

3、,要么与查询无关。利用这种模型进展查询,其查询结果一般没有按照内容的相关特性排序。模糊逻辑模型它在查询结果处理中引进了模糊逻辑比拟,并且按照相关的优先次序排列查询结果,这样就可以克制布尔逻辑模型信息查询结果的无序性。概率模型它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联络,利用词条间和词条与文档间的概率相依性来进展信息检索。2搜索引擎搜索引擎是目前使用最为频繁的一种网络信息检索工具。与其他工具相比,它的检全率和检准率都比拟高,具有很强的使用价值和广泛的应用前景。2.1搜索引擎的工作原理作为一种站点资源和其它网络资源进展组织和检索的检索工具,搜索引擎的检索机制一般包括数据采集和标引机制

4、、数据组织机制和用户检索机制,根本构成如图1所示。数据采集标引机制按照一定规律和方式对网络上站点进展搜索,并将搜索到的页面信息存入搜索引擎的临时数据库中。数据组织据组织机制的主要功能是对页面信息进展整理以形成标准的页面索引,并建立相应的索引数据库。索引数据库是用户进展检索的根底,它的数据质量直接影响到检索效果,而搜索引擎的数据采集标和标引机制又是决定数据库质量的关键技术。用户检索机制帮助用户以一定方式检索引擎的索引数据库,以获得符合用户需要的站点或页面。2.2搜索引擎的分类按照用户查找的途径划分,可将搜索引擎分为如下几种:基于关键词的搜索引擎主要通过使用自动采集软件来对网络上的数据进展采集标引

5、,建立成索引数据库。它主要采用自动搜索和标引方式来建立和维护其索引数据库,供用户查询使用。基于分类目录的搜索引擎一般依赖于按照某种分类标准进展人工编排的分类体系。结合式搜索引擎是基于关键词的搜索引擎的另外一种表现形式,是后者与基于类目的搜索引擎的一种结合。2.3搜索引擎的功能目前internet上的搜索引擎种类繁多,虽然各种搜索引擎都有自己的不同信息采集标引机制,在其他一些方面各具特色,但其根本功能却是相似的。布尔逻辑检索这一功能使得用户能使用and、r和nt来进展关键词的搭配检索。模糊检索在用户进展检索的过程中,系统会对跟用户提供的关键词相似的词语进展检索,并返回包含关键词或是这些相似词的检

6、索结果。截词检索这种检索形式利用检索词的某一局部来进展检索。在搜索引擎中,用户提供包含“?或是“*通配符的检索项来进展检索。限定词检索这种检索加减号检索,它用来规定检索项中必须出现或是必须不出现某些关键词。3网络信息检索的局限用户在查找网络信息资源时,不可防止的用到网络信息检索工具。检索工具的优劣很大程度的影响了用户的检索效率。虽然网络信息检索工具在最近几年有了长足的开展,但是到如今网络信息检索仍然存在着这样或是那样的局限。3.1文本信息检索的局限网络信息标引的准确度不够检索工具对网络信息资源的标引一般都存在着栅引准确度不够的问题,检索工具经常会在返回大量垃圾信息的同时丧失有用信息。当用户要进

7、展特定的文献检索时,有时还会发现现存的检索工具无济于事,检索出来的数据完全被无用信息所覆盖。如想要通过搜索引擎查询清朝雍正年间李卫任浙江巡抚的资料,你只可以查到大量?李卫当官?之类无用信息。搜索引擎的查全率不高由于互联网上的信息资源以爆炸性的速度不断增长,搜索引擎采集数据的速度远远落后于信息资源的增长速度。单个搜索引擎的数据库所搜集的eb页面大大缺乏,就是所有的搜索引擎所储存的数据也只占全球eb页面的50强。由于这方面的原因,搜索引擎的检全率会无可防止的被降低。搜索引擎的查准率不高一是返回的信息过多,这是现有搜索引擎检索信息的普遍现象;二是返回重复的信息,搜索引擎的检索结果中还经常重复出现同一

8、信息源的不同局部,甚至出现不同信息源的一样内容信息。查询方式有限目前大多数搜索引擎的查询方法比拟单一,一般只提供分类查询方式和关键词查询方式。这样,一方面检索时不能从文献的多个方面对检索提问进展限制,只能就某一关键词或概念进展笼统的检索;另一方面,由于查询结果完全依赖于用户所给出的关键词,而大多数用户对他们检索的领域或索引数据库的关键词不太理解,因此使最后的查询结果相关性很差,往往是输入一个检索式,得到一大堆网址,但其中大局部是冗余信息。检索对象的数据构造单一由于如今大多数网站使用的是传统的关系数据库对信息进展组织和存储,因此其使用的搜索引擎也是基于关系数据库的,这种传统的关系数据库非常擅长处

9、理构造化的数据,但其对于非构造化的数据的处理才能那么很弱。交互性不够当前的搜索引擎与用户的交互性不够,与用户间缺乏足够的协作,不理解用户的情况,不记录用户提交的查询任务,不能处理用户的反应信息,因此不能与用户进展足够好的交互以进步检索效率。3.2多媒体信息检索的局限到如今为止,虽然单独针对图像、视频、声音等媒体的检索技术已经出现,但还没有任何搜索引擎可以充分解决多媒体信息的检索,其主要表如今以下几个方面:检索效果不够理想目前,几乎所有的多媒体搜索引擎在多媒体信息的查准率方面都不能到达令人满意的程度,用户将在返回的几百个甚至上千个图像中挑选需要的那一幅。这是很费时和令人难以忍受的,而且有时你所用

10、的搜索引擎根本检不出你想要的东西。归其原因,一方面是在于查询方式的单一,另一方面在于对图像的标引深度不够,这就要求完善图像检索和索引机制。用户查询接口单一理想的多媒体检索系统中,人是主动的,用户的查询接口能提供丰富的交互才能,且直观易用,使用户可以在主动交互过程中通过调整检索参数,表达对图像的语义感知,最终获取满意的结果。这就涉及到如何把用户的提问转换为可以执行检索的特征矢量、交互方式的设计,如何获取用户的内容感知等问题。目前的多媒体搜索引擎用户查询接口比拟单一,大多只提供描绘查询接口,即关键词提问框。图像特征信息的表示与检索不够完善基于内容的图像检索,本质上就是进展图像特征相似度的比拟,但目

11、前这一技术还存在许多问题。信息的自动加工与人工标引不够目前文本搜索引擎在这方面的开展正日趋完善,而多媒体搜索引擎的研究刚刚起步,尤其是图像信息的加工,图像不同于文本,文本自身就能说明要讲的内容,而图像内容却需要参加人的理解和描绘,人工干预虽能进步查准率,但一方面能被人工标引的是极其有限的;另一方面由于人工标引劳动强度大而限制了检索的范围,如何对图像信息进展快速标引和准确分类是急待解决的主要问题。另外,目前基于内容的检索技术多应用于对静态图像的检索,对动态图像的检索还没有多少行之有效的方法。但随着宽带网络的逐步实现,动态多媒体信息在网络中将会越来越多。【参考文献】1张杰.浅论网络信息检索.江西图书馆学刊,2002年增刊.2董慧.网络信息资源开发与利用.武汉:武汉大学出版社,2001.3卢小宾.信息检索.北京:科学出版社,2022.4李勇先,郑文良.人工智能在网络信息检索中的应用.图书馆建立,20224),4:8183.5焦玉英,符绍宏,何绍华.信息检索.武汉:武汉大学出版社,2001.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!