XML检索技术研究

上传人:痛*** 文档编号:220381758 上传时间:2023-06-30 格式:PPT 页数:33 大小:1.03MB
收藏 版权申诉 举报 下载
XML检索技术研究_第1页
第1页 / 共33页
XML检索技术研究_第2页
第2页 / 共33页
XML检索技术研究_第3页
第3页 / 共33页
资源描述:

《XML检索技术研究》由会员分享,可在线阅读,更多相关《XML检索技术研究(33页珍藏版)》请在装配图网上搜索。

1、XMLXML检索技术研究检索技术研究OutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果模型lXML文档查询技术l参考文献XML的必要性的必要性lXML文档的产生lXML文档的结构lXML文档的特点lXML的应用现状XML文档的产生文档的产生l产生动因l将数据和显示分离开来l智能化Webl语义网l发展历史l源于学术界,成功于商业界l1960年,IBM提出GMLl1978年,GML标准化后SGMLl1989年,HTML诞生于欧洲粒子物理研究中心l1995年,HTML2.0l1996年,HTML4.0,W3C推荐标准l1998年,XML

2、1.0,W3C互联网数据表示和交换标准l2000年,XHTML1.0,W3C推荐标准XML文档的结构文档的结构l七个主要成分l序言码l处理指令l根元素l元素l属性lCDATA节l注释XML文档结构文档结构(示例示例)XML文档的特点文档的特点l简明性,易学、易用、易实现l可扩展,可定义自已的元素和属性l灵活性,数据显示和数据描述分离l跨平台,方便于数据交换和集成l跨语言,使用UNICODE字符集l智能化,能够描述数据,让计算机理解文档XML的应用现状的应用现状l基于XML数据的数据仓库l电子商务领域用于数据交换l异构系统的集成lWeb Service技术的基础,SOAP协议的基础l语义网的核心

3、l数据描述,维基百科,各会议论文集描述文档lAJAX技术的基础,网页异步显示l科研领域,XML文档检索、存储等XML应用现状应用现状(图例图例)OutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果lXML文档查询技术l参考文献XML检索数据模型检索数据模型l标签树模型l将XML文档中的标签当成树节点l仅考虑单个文档l标签图模型l将XML文档中的标签当成图节点l考虑文档的外部连接OutlinelXML的必要性lXML检索模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果lXML文档查询技术l参考文献XML文档索引技术

4、文档索引技术l普通倒排索引l路径索引l基于节点的索引,如deweyID编码普通倒排索引普通倒排索引l索引结构l关键词字典l文档列表l特点l简单,与传统搜索没有区别l没有考虑XML文档的结构路径索引路径索引l基本结构l关键词词典l关键词路径列表l特点l充分考虑了树结构l索引文件有可能非常大l进行结构处理时很麻烦,时间开销大路径索引路径索引(示例示例)基于节点的索引基于节点的索引l基本结构l关键词词典l节点编码列表l特点l索引中包含了文章的结构信息l索引比较小l很方便的处理多关键词检索问题节点索引节点索引(示例示例)OutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档

5、权重计算模型lXML文档检索结果模型lXML文档查询技术l参考文献XML文档权重计算模型文档权重计算模型l基于内容权重计算模型lTD*IDFl向量空间模型l基于结构权重计算模型l树结构l图结构l综合考虑内容和结构的模型TD*IDF模型模型TF*IDF是信息检索领域最成功的模型之一,广泛应用于目前主流的搜索引擎中TF*IDF模型用来确定词与文档之间的相似度模型很方便扩展向量空间模型向量空间模型l通过空间向量夹角的余玄来计算文档和查询之间相似度的模型树结构中权重计算树结构中权重计算l结果树中节点个数越多,权重越低l关键词对应节点间路径越短,权重越高综合考虑内容和结构模型综合考虑内容和结构模型该模型

6、综合考虑了内容和结构充分体现出了XML的特点OutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果模型lXML文档查询技术l参考文献XML文档检索结果模型文档检索结果模型lLCAlXRANKlSLCAlMCT(GMCT,MGMCT)XML文档检索结果模型文档检索结果模型(示例示例)lQ=(A,B)OutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果模型lXML文档查询技术l参考文献XML文档查询技术文档查询技术l基于关键词的查询l基于路径的查询,如XPATHl基于正则表达式

7、的查询l基于特定查询语言(如类SQL语言)的查询l查询树查询计数示例查询计数示例(示例示例)路径查询/论文集/论文id=001查询语言(XQL)file:/论文id=001|id=002查询树 A OR(B AND C)参考文献参考文献l1 Lin Guo,Feng Shao,Chavdar Botev,Jayavel Shanmugasundaram.XRANK:Ranked Keyword Search over XML Documents.Sigmod June 9-12,2003.l2 陈金森,原福永,张园园。XML搜索引擎研究。Library and information serv

8、ice.Vo151,No.1,January,2007.l3 张晓临,谭跃生,丁红。面向对象的XML查询系统的设计与实现。计算机工程与设计,Vo128,No16,Aug.2007l4 Yu Xu,Yannis Papakonstantinou.Efficient Keyword Search for Smallest LCAs in XMLlDatabases.Sigmod June 14-16,2005.l5 韩近强,杨冬青。关系数据库CoDB中XML全文检索的设计与实现。北京大学硕士学位论文,2004.5.l6 于晋,唐世渭,邓志鸿。XMLSearch:一个XML文档检索系统的设计与实现。北京大学硕士学位论文,2007.6.THE END,THANK YOU!结束语结束语谢谢大家聆听!谢谢大家聆听!33

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!