数据挖掘在农业数字图书馆中的应用

上传人:仙*** 文档编号:123910132 上传时间:2022-07-23 格式:DOC 页数:3 大小:643KB
收藏 版权申诉 举报 下载
数据挖掘在农业数字图书馆中的应用_第1页
第1页 / 共3页
数据挖掘在农业数字图书馆中的应用_第2页
第2页 / 共3页
数据挖掘在农业数字图书馆中的应用_第3页
第3页 / 共3页
资源描述:

《数据挖掘在农业数字图书馆中的应用》由会员分享,可在线阅读,更多相关《数据挖掘在农业数字图书馆中的应用(3页珍藏版)》请在装配图网上搜索。

1、数据挖掘在农业数字图书馆中的应用何永进 ,饶思军(华中农业大学图书馆 ,湖北武汉 430070 )摘要 数据挖掘是一门新兴的数据处理技术 ,在信息的利用和提取中发挥着日益重要的作用。笔者在描述数据挖掘技术的基础上 , 探讨了数据挖掘技术在农业数字图书馆信息咨询、个性化服务、信息资源优化、读者需求分析等中的应用。关键词 数据挖掘 ;农业数字图书馆 ;信息服务中图分类号G250文献标识码 A文章编号 0517 - 6611 ( 2009) 19 - 09282 - 02Re sea rch on the A pp lica t ion of D a ta M in ing in the A gr

2、icu ltura l D ig ita l L ibra ryHE Y on g2j in e t a l (L ib ra ry of H uazhong A gricu ltu ra l U nive rsity, W uhan, H ube i 430070 )A b stra c t D a ta m in ing is a new info rm a tion techno logy. It is p laying an inc rea singly impo rtant ro le in the u se and extrac tion of info rm a tion. O

3、n the ba sis of de sc rib ing the da ta m ining techno logy, the app lica tion s of da ta m in ing techno logy in agricultu ra l d igita l libra rys info rm a tionconsu lta tion, the p e rsona lized se rvice s, info rm a tion re sou rce op tim iza tion, the reade r dem and ana lysis and so on we re

4、discussed.Key word s D a ta m in ing; A gricultu re digita l lib ra ry; Info rm a tion se rvice在现代科学技术推动下 ,农业图书馆正朝着自动化、数字化和信息化的方向发展。信息技术的迅猛发展 ,导致多媒 体、电子文件、数据库等多种形式的大量无序信息资源不断产生 ,而大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息。传统的查询、报表工具无法满足挖掘 这些信息的需求 ,人们急切需要一种能够从海量的数据中提 取有价值的知识和信息的技术 ,这样数据挖掘技术便应运而 生。农业数字图书馆是综合运用多方

5、面高新技术的数字信 息资源管理系统 ,农业数字图书馆的数据挖掘和知识发现研 究具有较大的实用价值。笔者研究了数据挖掘在农业数字 图书馆信息咨询、个性化服务、信息资源优化、读者需求分析 等中的应用 1 - 7 。1 数据挖掘概念数据挖掘 (D ata M ining) 也称知识发现 ,是指从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中 ,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘对象是大型数据库、数据仓库和浩 瀚的网络信息空间 ,旨在通过对数据的统计、分析、综合、归 纳和推理 ,揭示数据间潜在的关联 ,发现被忽略的要素 ,预测 未来的发展趋势 ,

6、起到辅助实际工作问题求解的作用。数据 挖掘的过程就是知识发现的过程 ,其所能发现的知识有如下 几种 :广义型知识、特征型知识、差异型知识、关联型知识、预 测型知识、偏离型知识 ,所有这些知识都可以在不同的概念 层次上被发现 ,随着概念树的提升 ,从微观到宏观 ,以满足不 同用户、不同层次决策的需要。数据挖掘是涉及数据库、人 工智能、数理统计、机械学、人工神经网络、可视化、并行计算 等的交叉学科 ,是目前国际上数据库和决策支持领域的最前 沿的研究方向之一。2 数据挖掘技术和方法数据挖掘根据其主要研究对象的数据结构形式的不同 ,一般粗分为数据挖掘、W eb 数据挖掘、文本数据挖掘 3类。2. 1

7、数据挖掘 ( Da ta M in ing) 面向数值数据的数据挖掘 ,通常称为数据挖掘。数据挖掘的任务主要是 :分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、导常和趋势发现等。常见的数据挖掘 方法主要有 : 统计分析、归纳学习方法、仿生物技术、神经网 络、决策树、遗传算法、贝叶斯信念网络、模糊集、粗糙集等 , 由于各种方法都有自身的功能特点以及应用领域 ,因此不同 方法的选择将影响最后结果的质量和效果 ,通常是将多种方 法结合使用 ,形成优势互补。2. 2 基于 W eb的数据挖掘 ( W eb2ba sed Da ta M in in g) 数 据

8、挖掘的对象是传统的数据库或数据仓库 ; 而 W eb数据挖掘实现对 W eb 存取方式、W eb 结构和规则以及动态的 W eb内容的查找 ,是实现数字图书馆功能的核心技术之一。它针 对包括 W eb 页面内容、页面之间的结构、用户访问信息、商 务交易信息等在内的各种 W eb 数据 ,应用数据挖掘方法及 技术发现有用的知识 ,来帮助人们从 Interne t 中提取知识 , 改进站点设计 , 更好地开展电子商务或改进服务。W eb 数 据挖掘分为 : W eb 结构挖掘、W eb 内容挖掘和 W eb使用记录 挖掘。( 1) W eb 结构挖掘。结构挖掘指的是从 W eb 文档的组 织结构和

9、链接关系中发现知识 ,对数字图书馆页面超链接关 系、文档内部结构、文档 URL 中的目录路径结构等进行挖 掘 ,揭示蕴含在这些文档结构信息中的有用模式 ,在此基础 上对页面进行分类和聚类 , 或对相关网页进行分析 ,从而可 以评价网页的质量 ,优化检索方式 ,指导网站建设 ,也可以通 过链接分析掌握学科发展状况。( 2) W eb内容挖掘。内容挖掘指的是从 W eb 文档的内 容信息中抽取知识 , 内容挖掘又分为对文本文档 (包括 Text, HTML 等格式 ) 、多媒体文档 (包括 image, audio, video 等媒体类型 )和分布式数据的挖掘。内容挖掘包括 : 对文献 数据进行

10、组织、特征的自动提取和描述、文本总结或摘要、文 档自动分类、自动采集和整理专题信息。( 3) W eb 使用记录挖掘。使用记录挖掘是指利用数据 挖掘技术 ,分析用户访问数字图书馆留下的日志文件 ,挖掘 用户访问模式 ,也可从用户访问文档的超链接来预测用户的 访问兴趣 ,采用关联性法则和聚类方法发现不同的用户群 体 ,然后对这些不同的群体提供信息定制服务 ,帮助群体成 员搜索、处理知识。支持多用户的 W eb开发 ,以使成员定制作者简介 何永进 ( 1965 - ) ,男 ,湖北武汉人 ,副研究馆员 ,从事书目数据库建设工作。收稿日期 2009 203 227性化服务内容 ,提高为用户知识服务的

11、自动化水平。W eb使用记录挖掘主要是对服务器日志、Cookie、用户注册数据、电 子邮件查询响应数据及 W eb 购买数据的挖掘。目前 ,使用记录挖掘可分为两大类 :访问模式的追踪和个性化使用记录的追踪。2. 3 文本数据挖掘 ( Tex t M in in g) 面向文本信息的数据 挖掘 , 通常称为文本数据挖掘。当数据挖掘的对象完全由 文本类型组成时 ,结合使用数据挖掘算法与信息检索算法对 巨量文本信息进行自动化信息处理与分析的过程叫文本数 据挖掘。它包括特征提取、文本摘要、文本分类与聚类、概念 操作以及探索性数据分析等工作。文本数据挖掘所应用的 技术包含用于表示文档的词频反文献频率向量

12、表示法、词串 表示法 ,用于文本分类的贝叶斯分类算法、词集合算法 ,基于 概念的文本聚类算法以及 K2最近邻参照分类算法等。3 数据挖掘在农业数字图书馆中的应用3. 1 农业数字图书馆概念 农业数字图书馆和其他数字图 书馆一样 ,是用数字技术处理和存储各类文献 ,农业数字图书馆是高新技术的产物 ,涉及数字化、超大规模数据库、网络 多媒体信息处理、信息压缩与传送、分布式处理、安全保密、可靠性、数据仓库与联机分析处理、信息抽取、数据挖掘、基 于内容的检索、自然语言理解等各类技术。它将分散于不同载体、不同地域的数字化信息以网络化方式相互联结从而实 现资源共享 ,用户可以通过网络高效方便地查询和检索信

13、息以获得信息服务 ,并且其信息存储和用户访问不受时间和地 域限制。3. 2 在提升信息服务质量和业务拓展上的应用 农业数字 图书馆的信息内容包括大量的数字化馆藏、种类繁多的农业数据库、全文 W eb 资源链接以及互联网上的农业信息 ,大量 的农业信息数据 ,只有通过组织、分析和挖掘 ,找出数据背后真正有价值的知识信息 ,才是用户实际需要的。采用数据挖掘技术 ,将其用于农业数字图书馆的信息发现和信息提供的 全过程 ,可向用户提供更优化的信息服务 ,满足用户的信息 需求 :( 1)提高信息获取速度。为保证用户在尽可能短的时间 内获取所需信息 ,首先可以搜集用户每次阅读的专题集合(浏览模式 ) 作为

14、一个事务 ,记录所有用户每一次浏览过程性 ,往往将一大堆查询结果线性呈现 ,令用户不知所云 ; 智能化的信息检索不仅支持概念检索、模糊检索、联想检索及 多语言检索等 ,而且能迅速利用聚类算法将查询结果分析聚类 ,使之条理化呈现 ,方便用户筛选。同时在此基础上确定进一步的检索定位。3. 3 在农业数字图书馆个性化服务中的应用 所谓个性化 服务就是针对用户的特定需求主动地向用户提供经过集成 的相对完整的信息集合或知识集合。是未来信息服务的主 流模式 ,数据挖掘技术因其在海量信息资源中的智能表现 , 能为农业数字图书馆的个性化服务提供技术支撑。例如 ,采 用关联规则和聚类方法可发现不同的用户群体 ,

15、然后对他们 提供定制的 W eb页面 ,信息频道或信息栏目 ,实施查询代理 服务 ,帮助群体成员搜索、处理知识。按照特定主题 ,提供相 对完整的方案知识 ,实施个性化决策支持服务。按照特定主 题 ,指引文献源或提供文献全文 ,实施个性化文献信息服务。3. 4 在信息咨询中的应用 在图书馆的信息参考咨询过程 中 ,用户提出的检索任务和信息需求不再满足于对相关信息、信息线索、文献书目数据或信息参考数据的获取 ,更注重 获取有深度的信息内容、文献全文或针对查询问题的全面深层解答。采用数据挖掘技术能够对大量的数据信息进行深 层次的挖掘 ,分析它们之间的相关关系 ,并保证数据的一致性、完整性和安全性。其

16、分析查询高效率和交互式图形接口 能够高质量、迅速地满足用户特定的信息需求。数据挖掘中对复杂类型数据库的检索技术大大丰富了信息检索的技术 手段 ,如图像识别技术、语音识别技术、基于相似性的检索技术以及对时序数据采取的关联检索的技术等 ,大大提高了咨 询服务的效率。3. 5 在建立 W eb学科导航系统中的应用 农业数字图书 馆的核心是信息 ,除了来自本馆收藏的电子文献外 ,目前许多信息来自 In te rnet 。对 In te rnet 的数据开采是农业数字图书馆信息的一个重要来源。 Interne t 上数据源是无序的 ,非 结构的 ,数据源之间存在冗余 ,且具有很强的动态性和多样 性 ,这

17、些特点导致了信息获取的困难。W eb 数据开采就是针 对这些问题而发展起来的一项新技术 ,应用该技术和方法可 以帮助人们从 WWW 中提取知识 ,改进服务。如通过 W eb 内容挖掘可以对 W eb 上大量文档集合的内容进行摘要、分图 4 A #风电场月平均风功率密度推算值与实测值比较F ig. 4 The ca lcula ted va lue an d a ctua l va lue of m on th ly m ean w ind power den sit ies a t A # w in d f ield图 5 B#风功率密度计算值与实测值比较F ig. 5 The ca lcul

18、a ted va lue an d a ctua l va lue of m on th ly m ean w ind power den sit ies a t B# w in d f ield算结果 ,说明 W T并不是对所有复杂情况下的风电场都有很好的计算结果 ,由于受地形复杂程度和测风数据准确程度、测 风高度、测风塔相对位置等因素的影响也有其一定的局限性。 综合分析 ,W T对该文 2 个风电场风能资源的推算结果良好 ,在风电场内测风塔数量有限且某处无测风记录时 ,可 以根据风电场风资源评估的需要 ,将 W T对风电场无测风点风资源的推算结果作为无测风记录区风能资源初步评估的辅助资料

19、,填补对无风记录区风资源状况不清的空白 ,但仅以此推算结果作为风电场风能资源评估的依据还存在欠缺。参考文献 1 黄梅丽 ,史彩霞 ,谭强敏 ,等. 广西山地风能资源开发利用可行性分析 J . 成都信息工程学院学报 , 2007, 22 (2) : 247 - 252. 2 黄浩辉 ,宋丽莉 ,植石群 ,等. 多元回归法在复杂地形风资源微尺度模 拟中的应用 J . 气象 , 2007, 33 (7) : 98 - 104. 3 杨振斌 ,朱瑞兆 ,薛桁. 风电场风能资源评价两个新参数 J . 太阳能学 报 , 2007, 28 (3) : 248 - 251. 4 刘旭 ,卢晓东. 风力发电场可

20、行性研究阶段的风资源评价 J . 山东气 象 , 2002 (1) : 31 - 32.(上接第 9283 页 )点 ,传统图书馆的信息采集多由采访人员决定 ,难免不够全 面 ,可能造成有限经费的浪费及信息资源的缺漏。利用数据 挖掘技术至少可以从以下 3 方面搜集广泛的信息需求 ,聚集 用户智慧 ,达到信息资源的优化并提高针对性。首先 ,可以 对流通记录、检索请求及馆藏书目数据进行挖掘 ,按类统计 文献拒借集和频繁借阅集 ,为有针对性的补充和丰富信息资 源提供决策支持 ,并可以籍此分析出文献的利用率 ,及时剔 除过时的文献信息 ,或减少部分文献信息的采访搜集量。其 次对用户每次借阅的文献进行关

21、联分析 ,发现各类文献间的 关联规则或比例关系 ,优化信息建设或馆藏布局。最后利用 数据挖掘方法发现用户兴趣模式。甚至可以预先发现用户群 体兴趣的变迁 ,调整馆藏结构 ,提前做好文献信息的搜集订购。类、聚类和时间序列模式分析 ,了解用户的普遍需求和特殊需求 ,以用户信息需求为出发点 ,建立系列相关规则。可提 供如下需求服务 : 当发现新的相关信息或书目数据时 ,及 时推荐给读者 ; 当用户访问时 ,根据读者兴趣度 ,推介相关 专题信息 ; 分析用户信息访问过程 ,判断其信息检索能力 , 适当时通过提示或引导帮助其发现信息 ; 读者的兴趣可能 会随着需求不断变化 ,采用数据挖掘技术 ,系统可以具

22、备自 动监测能力 ,及时发现用户的最新需要。参考文献 1 王艳. 数据挖掘在数字图书馆中的应用 J . 情报科学 , 2003, 21 ( 2) : 213- 214. 2 潘旭武 ,陈玲洪. 数据挖掘在数字图书馆中的应用研究 J . 浙江高校图书情报工作 , 2007 (1) : 37 - 39, 55. 3 陈雪. W EB 挖掘在数字图书馆个性化服务中的应用 J . 兰台世界 ,2008 (24) : 37 - 38. 4 龚宇花 ,刑耐生. 数据挖掘技术在高校数字化图书馆中的应用 J . 电脑知识与技术 , 2008 (34) : 1547 - 1548, 1557. 5 唐海萍. 基于数据挖掘技术的图书馆管理模式 J . 现代情报 , 2008(9) : 109 - 110. 6 张军丽. 基于数据挖掘技术的图书馆参考咨询 J . 科技情报开发与经济 , 2008 (20) : 50 - 51. 7 杨晔 . 数字图书馆建设中的计算机技术应用 J . 图书馆理论与实践 ,2008 (6) : 77 - 79.3. 7 在读者需求分析中的应用数据挖掘作为需求分析的一种新技术 ,能很好地从历史数据中分析读者需求。图书馆自动化管理系统积累的有序数据具备了挖掘条件。通过 收集、加工和处理大量采访及读者信息 ,对用户行为进行分

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!