基于XML描述的WEB信息抽取技术研究(图文)

上传人:zhan****gclb 文档编号:81381019 上传时间:2022-04-27 格式:DOCX 页数:6 大小:15.70KB
收藏 版权申诉 举报 下载
基于XML描述的WEB信息抽取技术研究(图文)_第1页
第1页 / 共6页
基于XML描述的WEB信息抽取技术研究(图文)_第2页
第2页 / 共6页
基于XML描述的WEB信息抽取技术研究(图文)_第3页
第3页 / 共6页
资源描述:

《基于XML描述的WEB信息抽取技术研究(图文)》由会员分享,可在线阅读,更多相关《基于XML描述的WEB信息抽取技术研究(图文)(6页珍藏版)》请在装配图网上搜索。

1、基于XML描述的WEB信息抽取技术研究(图文)论文导读:怎样对Web上大量的数据信息进行数据抽取成了现今数据挖掘研究的热点。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。关键词:数据抽取,XML,半结构化数据1.引言互联网已成为人们获得信息、取得服务的重要渠道之一。怎样对Web上大量的数据信息进行数据抽取成了现今数据挖掘研究的热点。Web数据抽取是从网络中获得客户需要的文本、多媒体等信息的过程。例如:需要查找清华大学出版社新书的出版情况。发表论文。这就需要给出一个程序自动访问清华大学站点上的相关页面并返回有关数据。由于目前网络上信息的主要组织形式

2、是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。2.XML 与Web 数据抽取XML (extensibleMarkup Language) 是由W3C 设计, 特别为Web 应用服务的SGML (Standard Gener2alMarkup Language) 的一个重要分支, 它是SGML的一个简化子集, 将SCGL 丰富的功能和HTML 的易用性结合起来, 以一种开放的、自我描述的方式定义数据结构 。发表论文。XML 解决了HTML 不能

3、解决的两个Web 问题, 一是Internet 发展速度快而接入速度慢的问题, 另一个是可利用的信息多, 但难以找到自己需要的那部分信息的问题。XML 能增加结构和语义信息, 可以很容易地将XML 的文档描述与关系数据库中的属性一一对应起来, 实施精确地查询抽取。发表论文。3.数据抽取过程描述Web页面抽取处理过程如下:3.1 获取页面在数据抽取过程中, 通过站点链接查找Web页面会遇到两种Web 页, 一是包含所需数据的Web 页, 二是包含所需数据的目标页面的超链接Web 页。对Web 站点的导航规则可以经过仔细分析目标站点, 结合所需数据的特点进行手工编写或者借助于一些半自动化的工具编写

4、。3.2 页面清洗当前许多Web 站点上的HTML 代码并不是格式完整的, 首先要把这种格式非良好的HTML 文档转变成格式良好的XML 文档, 然后提取用户所需的信息。用XML 标引的网络数据是一种半结构化的数据模型, 通过具有语义的TAG可以清晰地标识网页的逻辑结构, 从而能方便地实施准确的信息查询与模型抽取, 完成异构网络数据的整合。将HTML 文档转换成XML 以便数据抽取, 一般可采用过滤软件修复被破坏的结构, 并产生一个良好的HTML 结构, 即XHTML , 目前有一些对HTML 页面设计进行规范化组织的工具, Tidy 就是一种过滤HTML 文本中错误的免费产品。使用由Tidy

5、 库提供的功能可以在XMLHelp1tidyHTML ( ) 方法中做转换, 把URL 作为参数进行方法调用, 输出结果产生XML 文档格式, 如下代码可以实现。Public staticvoid main(String arg )tryDocumentdoc=XMLHelper1tidyHTML(“PcatalogglobalPlcd1html”) ;XMLHelper.outputXMLToFile( doc ,”XML ” +File.separator + lcd.xml”) ;catch(XMLHelperException xmle)/3.3 数据转换假定已从某电子产品的相关网页上

6、获取了有关新产品的信息, 需要按照数字高清新产品(数字高清产品名、技术参数、类型、价格) 这样的格式构造XML 文件, 本文采用XSLT 的方法来进行转换, 主要代码如下:4.结 语面向Web 的数据挖掘是一项复杂的技术,由于Web 数据挖掘比单个数据源的挖掘要复杂得多,因而面向Web 的数据挖掘成了一个难以解决的问题。而XML 的出现为解决Web 数据挖掘的难题提供了解决方法。由于XML 能够使不同来源的结构化的数据很容易地结合在一起,因而可以搜索多样的不兼容的数据库,从而解决了Web 数据挖掘的难题。同时,由于基于XML 的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结

7、构化数据的一个标准,XML 为组织、软件开发者、Web 站点和终端使用者提供了许多有利条件。相信在以后,随着XML 作为在Web 上交换数据的一种标准方式的出现,面向Web 的数据挖掘将会变得非常轻松。参考文献1 谢丹夏.Web 上的数据挖掘技术和工具设计J . 计算机工程与应用,2001 , (6) :8587.2 陈玉芳,葛燧和. 一个基于XML的WEB数据收集模型的研究 J . 计算机工程与应用, 2004, (10) : 150 -152.3 王玉珍.Web数据挖掘技术与XMLJ.信息技术,2005,(10)4 黄豫清,戚广志,张福炎. 从WEB 文档中构造半结构化信息的抽取器J . 软件学报,2000 ,11(1) :73 - 78.5 Myllymaki, Jussi. Effective Web DataExtraction with Standard XML Technologies C . International Journal ofComputer and Tele2 communication Networking In: 10 th intl. World Wide WebConf. Hong Kong, May 2001.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!