数字图书馆关键技术及其在生物信息学中的应用

上传人:无*** 文档编号:169484134 上传时间:2022-11-15 格式:PPT 页数:44 大小:1.90MB
收藏 版权申诉 举报 下载
数字图书馆关键技术及其在生物信息学中的应用_第1页
第1页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用_第2页
第2页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用_第3页
第3页 / 共44页
资源描述:

《数字图书馆关键技术及其在生物信息学中的应用》由会员分享,可在线阅读,更多相关《数字图书馆关键技术及其在生物信息学中的应用(44页珍藏版)》请在装配图网上搜索。

1、数字图书馆关键技术及其在生物信息学中的应用张 亮2002-05-30复旦大学计算机与信息技术系上海(国际)数据库研究中心数字图书馆关键技术及其在生物信息学中的应用2内容安排1.数字图书馆2.数字图书馆研究的意义3.复旦大学数字图书馆关键技术研究4.在生物信息学中的应用数字图书馆关键技术及其在生物信息学中的应用3研究动机q信息在国民经济中占有重要地位,是不可多得的战略性资源q信息的有效利用可产生巨大的社会效益和经济效益q 数据量的迅速膨胀q 分布式的异构信息管理q 复杂的数据类型q 信息的快速、精确的查询需求应大力开展信息资源建设对信息的良好组织和管理一种解决方案:数字图书馆数字图书馆关键技术及

2、其在生物信息学中的应用4数字图书馆是国家信息基础设施q数字图书馆是一种基于计算机网络,特别是基于 Internet的数字化信息资源管理系统,它维护分布式、大规模且有组织的数据库和知识库,保护信息资源的安全和知识产权,支持本地和远程用户借助计算机网络对系统内的数据库和知识库进行一致性的访问,传送和表现用户所需的信息,实现资源共享。数字化的信息资源 超链接的信息组织方式信息的网络化传输 以用户为中心的服务模式数字图书馆关键技术及其在生物信息学中的应用5各国政府和机构积极推动数字图书馆的研究与开发q美国 数字图书馆研究及建设作为其国家信息基础设施NII的重要组成部分 美国政府蓝皮书中对数字图书馆的战

3、略意义给予了高度的重视 美国数字图书馆先导研究计划DLI-1、DLI-2q世界其它国家 欧洲出版工程、法国与英国的国家图书馆以及日本、新加坡等国家政府、机构也都积极推动数字图书馆的研究与开发工作qIBM和HP等跨国公司大力开展数字图书馆的系统研发工作数字图书馆关键技术及其在生物信息学中的应用6q对国际上数字图书馆研究状况的跟踪调研q国内重要的数字图书馆建设项目 中国数字图书馆工程 中国试验型数字图书馆(CPDLP)电子图书馆相关关键技术研究 知识网络数字图书馆系统工程 中国高等教育文献保障体系(CALIS)新一代图书馆信息系统(NLIS)电子文档管理系统(EDMS)上海图书馆数字化工程 数字图

4、书馆系统软件平台及其应用等国内数字图书馆的建设数字图书馆关键技术及其在生物信息学中的应用7涉及数字图书馆的关键计算机技术q数字式资源的采集技术(直接生成、数字化转换)q数字化资源的存储与管理技术(数据压缩、信息安全)q信息访问和查询技术(分类、索引、异构信息的一致性检索)q数字化资源的传送与信息发布技术(多媒体信息的传输、同步和QoS控制技术)q数字化资源的权限管理方法q面向特定用户的个性化服务数字图书馆关键技术及其在生物信息学中的应用8事例研究:异构性与互操作q大规模复杂信息系统q没有集中控制机构q遗留系统异构性是数字图书馆研究和建设不可回避的客观现实异构性是数字图书馆研究和建设不可回避的客

5、观现实结构上的异构性结构上的异构性(结构化、半结构化、非结构化结构化、半结构化、非结构化)地理位置地理位置(分布式分布式)组织形式组织形式(自治自治)需要互操作技术数字图书馆关键技术及其在生物信息学中的应用9事例研究:异构性与互操作Wrapper/Mediator方案 q 利用XML为异构的信息资源(数据库系统、HTML的网页集合、传统信息服务机构的可检索对象甚至是遗留系统)提供逻辑上的统一信息资源视图q 将 XML查询语言看作是视图定义语言,它驱动Mediator系统q 该Mediator系统负责选择、调整和集成由多个自治资源站点返回的信息,然后以XML文档一致格式反馈给用户Wrapper是

6、存取和转换已知信息资源的工具Mediator 是一种工具,它通过查询重构和/或内容处理改善信息或传递信息数字图书馆关键技术及其在生物信息学中的应用10事例研究:异构性与互操作 InfoBusq斯坦福大学承担的DLI-1项目q针对现存系统的互操作问题,不定义新的标准或试图修改现存的系统,而是承认它们的客观存在q基本思想是用图书馆服务代理这样一种CORBA对象表现在线服务。这些代理与现存的系统以它们固有的方式进行通讯,并将信息转换成由CORBA方法定义的标准界面数字图书馆关键技术及其在生物信息学中的应用11事例研究:异构性与互操作 Ontologyq 本体(Ontology)是领域知识的概念化说明

7、q 本体的元素:对象、概念及其关系通过形式化的说明被严格规定q 一组主体(Agent)按照他们形成的本体承诺相互交流领域知识,他们在给定的领域中对知识采取一致的解释和处理q 知识体系追求论域中的一致性而不是其完整性q 它可以为实现语义级的互操作提供帮助数字图书馆关键技术及其在生物信息学中的应用12事例研究:Ontology about Water LiliesNymphaeaceaeCaspary,1888BarclayaEuryaleNupharNymphaeaVictoriaNelumboCabombaBraseniaNymphaeaceaeCook,1990BarclayaEuryale

8、NupharNymphaeaVictoriaOndineaNelumbonaceaeCook,1990CabombaceaeCook,1990CabombaBraseniaNelumbo数字图书馆关键技术及其在生物信息学中的应用13事例研究:多媒体信息检索CBIR 基于色彩直方图的图像检索(图像表达为其色彩直方图特征)基于色彩分布的图像检索(图像表达为色彩的区域分布或变换域系数分布特征)基于区域的图像检索(图像表达为对象级的特征)基于区域分割和语义标注的图像检索excerpted from J.Z.Wangs Semantics-sensitive Retrieval for Digital

9、Picture Libraries保持对象信息的位置、形状和纹理注重感兴趣的对象,消除对象的平移、定比、旋转的影响结合语义标引的综合检索 数字图书馆关键技术及其在生物信息学中的应用14图像索引的基本处理流程Excerpted from J.Z.Wangs Semantics-sensitive Retrieval for Digital Picture Libraries数字图书馆关键技术及其在生物信息学中的应用15图像检索的处理流程Excerpted from J.Z.Wangs Semantics-sensitive Retrieval for Digital Picture Librar

10、ies数字图书馆关键技术及其在生物信息学中的应用16事例研究:多媒体信息检索视频结构的分析Excerpted from Dr,Zhnag Hongjiangs 新一代多媒体检索 高层高层 底层底层.1 2 M.针对多媒体中蕴含的时间特性、空间特性和时空特性开发基于内容的多媒体信息检索技术数字图书馆关键技术及其在生物信息学中的应用17事例研究:多媒体信息检索 Informediaq 自动分析视频、音频、隐含的标题、场景变换和其它信息q 其特色在于:虽然个别模式的分析只能得到不完美的信息,但是组合所有模式提供的信息却能得到非常优异的效果q 向Informedia数字图书馆馆藏中增加新的素材 将视频

11、素材分割到各主题部分中 通过音轨语音的识别、视频流隐含标题的识别来标识每个部分相关的文本 各种自然语言处理工具产生合适的索引纪录q 用户可以用多模式中的任何一种形式提出查询要求多模式信息检索体现优异的效果多模式信息检索体现优异的效果数字图书馆关键技术及其在生物信息学中的应用18数字图书馆研究在复旦大学 1995年起,复旦大学与IBM中国研究中心联合开展了数字图书馆的关键技术研究w 中国历史地图数字图书馆原型系统 国家自然科学基金重点资助项目“电子图书馆相关关键技术研究”(编号:69933010)上海市科技发展基金项目“数字图书馆系统软件平台及其应用”(合同号:005115012),达到国际先进

12、水平 上海市自然科学基金项目“页面图像的内容检索技术”(合同号:00ZD14006),达到国际领先进水平 目标:研究和开发Internet上基于数据库技术的数字化信息资源管理技术数字图书馆关键技术及其在生物信息学中的应用19研究成果 提出了一种基于Internet技术、合理组织大规模数字化资源的数字图书馆解决方案,研制了支撑该技术方案的一批关键技术,开发了实用的软件功能模块,适应于今后越来越多的分布式、自治、异构信息源的集成与一致性服务 形成了具有自主知识产权、先进实用的数字图书馆系统软件开发平台。该平台可根据应用特点,形成多种系统配置方案 数字图书馆关键技术及其在生物信息学中的应用20研究成

13、果数字图书馆关键技术及其在生物信息学中的应用21资源整合层面的研究成果 元数据组织技术及软件模块,采用有向无环图模型和资源描述框架(RDF),集成自治资源的元数据,为用户提供一致的信息服务界面,为数字图书馆系统提供信息组织结构,为个性化服务提供内容参考 分布式检索技术及软件模块,从数字图书馆的众多的收藏中发现优选收藏,发布检索请求并集成检索结果 互操作技术及软件模块,采用Wrapper/Mediator互操作模型、XML和CORBA技术,完成分布式自治信息源的能力描述和访问接口包装,为分布式检索提供对异构信息源的统一访问接口 数字图书馆关键技术及其在生物信息学中的应用22资源站点建设层面的研究

14、成果 资源建模/维护技术与软件模块,支持Web应用的多种粒度的抽象、封装、重用及导航,提供自治信息源的优选建模和维护支持 基于内容的多媒体检索技术和媒体服务器,支持基于内容的图像检索和高性能的中文全文检索 数字图书馆关键技术及其在生物信息学中的应用23数字图书馆综合技术方面的成果 XML数据管理技术与软件模块,基于关系数据库系统,实现对数字图书馆中的XML数据的存储,提供高效稳定的查询处理 个性化服务技术与软件模块,发掘在特定用户的使用履历中隐藏的个人信息偏好,动态用户归类和兴趣预测,为用户提供主动的信息推送服务 Web信息搜索技术与软件模块,采用结构匹配技术,实现对Internet上特定数据

15、源的基于内容和结构的查询 元数据配置与管理工具,辅助维护数字图书馆元数据体系,构造自治数据源的Wrapper 资源编目工具,支持对DTD模板的结构性和层次性的灵活编目,实现对数字资源的元数据置标和封装数字图书馆关键技术及其在生物信息学中的应用24一种生物信息源集成方法数字图书馆关键技术及其在生物信息学中的应用25生物信息学产生了大量相关资源 生物信息学数据库w 共有335个主要的数据库(据Nucleic Acids Research,2002)w 是实验数据与最终的结构、功能研究的桥梁w 各有侧重,关心问题的范围比较狭窄,但又有重叠 生物信息学的相关服务w BLAST,FASTA等序列比对工具

16、w 基于HMM的Pfam,HMMer等数据挖掘工具w 系统发育分析的Phylogeny工具数字图书馆关键技术及其在生物信息学中的应用26当生物学家想利用利用资源时数字图书馆关键技术及其在生物信息学中的应用27给生物学家的研究带来不便 寻找众多数据库和相关服务网站 使用各种风格各异的用户界面 要明确知道需要访问哪些数据源 使用不同的协议 分别发出查询请求 不停的作Copy&Paste,甚至格式转换 手工综合查询结果数字图书馆关键技术及其在生物信息学中的应用28相关研究 BioKleisli(宾夕法尼亚大学计算机系)DiscoveryLink(IBM研究院)TAMBIS(曼彻斯特大学计算机系)TI

17、Net(GSK公司和IBM研究院)国内尚未发现公开发表的自主研究BioKleisi采用采用Mediator(调节器调节器)技技术实现了若干数据源的集成,其后术实现了若干数据源的集成,其后的的K2/Kleisli系统还利用数据仓库实系统还利用数据仓库实现了现了OLAP(联机分析处理联机分析处理)DiscoveryLink基于基于Wrapper/Mediator(包装器包装器/调节器调节器)实现了信实现了信息源集成,提出了查询的分解和基息源集成,提出了查询的分解和基于代价的优化策略于代价的优化策略 基于基于Wrapper/Mediator实现了信息实现了信息源集成,借助源集成,借助BioKleis

18、li中的中的CPL语语言作为查询语言并给出了查询优化言作为查询语言并给出了查询优化的方法。通过的方法。通过TaO(TAMBIS Ontology)本体定义为用户浏览和)本体定义为用户浏览和查询处理提供领域知识查询处理提供领域知识TINet基于多数据库中间件基于多数据库中间件OPM(Object-Protocol Model,对,对象协议模型象协议模型)定义数据源的对象视图,定义数据源的对象视图,其其CORBA(Common Object Request Broker Architecture,公共对象请求代理体系结构公共对象请求代理体系结构)服务器服务器使各数据源使各数据源Wrapper(包装

19、器包装器)更易更易于扩充于扩充存在的一些缺陷:存在的一些缺陷:vBioKleisli 系统查询能力相对较弱,而且并未给出查系统查询能力相对较弱,而且并未给出查询优化策略;询优化策略;vTAMBIS系统和系统和DiscoveryLink系统集成的数据源数系统集成的数据源数量还很少,后者在查询处理中并未运用领域知识,因量还很少,后者在查询处理中并未运用领域知识,因而查询分解也未从语义角度考虑;而查询分解也未从语义角度考虑;vTINet系统中的查询处理能力不强等等系统中的查询处理能力不强等等数字图书馆关键技术及其在生物信息学中的应用29当前生物信息资源集成技术的特点 目前的生物信息学数据源仅限于海量

20、数据的存储体,除TAMBIS外,其他工作都还没有在概念和联系层次集成信息源 现有集成系统的查询处理能力还不是很强,尤其是当多个数据库存在信息重叠时,缺乏从中选择最佳检索成员,动态生成优化检索方案的能力 现有的工作主要面向数据集成,而对服务集成考虑不多。支持数据与服务综合性集成的体系仍欠完备数字图书馆关键技术及其在生物信息学中的应用30研究目标 建立一套生物信息学资源集成方法w 提供综合查询能力w 具有良好的可扩展性w 支持Internet网络计算环境w 同时支持数据集成和服务集成 整合一批重要的生物信息学资源w 数据库:GenBank/EMBL/DDBJ,SWISS-PROT,PIR,PDB,

21、KEGG,DIP,PRINTS,PubMed等w 应用服务:BLAST,FASTA,HMMER,Pfam等数字图书馆关键技术及其在生物信息学中的应用31主要研究内容 基于新一代Internet技术的信息资源(内容和服务)集成与互操作技术 适用于重要生物信息学资源综合应用的联邦数据库体系结构 服务于终端用户和应用程序的一致性访问接口 可供语义互操作的本体数字图书馆关键技术及其在生物信息学中的应用32结果生成结果生成客户端客户端客户端WrapperWrapperWrapperWrapper查询生成查询生成(根据(根据Ontology生成整体查询)生成整体查询)Ontology提供领域提供领域知识知

22、识查询处理查询处理/优化优化(查询分解,给出查询策略)(查询分解,给出查询策略)执行查询执行查询(SDLIP接口)接口)元数据元数据Web Service浏览器接口浏览器接口接口层Mediator层Wrapper层GenBankSWISS-PROTBLAST服务PubMed整整体体技技术术框框架架数字图书馆关键技术及其在生物信息学中的应用33结果生成结果生成客户端客户端客户端WrapperWrapperWrapperWrapper查询生成查询生成(根据(根据Ontology生成整体查询)生成整体查询)Ontology提供领域提供领域知识知识查询处理查询处理/优化优化(查询分解,给出查询策略)(

23、查询分解,给出查询策略)执行查询执行查询(SDLIP接口)接口)元数据元数据Web Service浏览器接口浏览器接口接口层Mediator层Wrapper层GenBankSWISS-PROTBLAST服务PubMed数字图书馆关键技术及其在生物信息学中的应用34接口层 客户端可能是Web浏览器,也可能是应用程序 以Web Service方式统一系统向外公开集成信息资源的访问界面,可支持BLAST,Pfam等应用服务 底层集成的信息资源对用户透明,即用户只需提出查询请求和相关概念,无需知道“去哪里找,怎么找?”数字图书馆关键技术及其在生物信息学中的应用35结果生成结果生成客户端客户端客户端Wr

24、apperWrapperWrapperWrapper查询生成查询生成(根据(根据Ontology生成整体查询)生成整体查询)Ontology提供领域提供领域知识知识查询处理查询处理/优化优化(查询分解,给出查询策略)(查询分解,给出查询策略)执行查询执行查询(SDLIP接口)接口)元数据元数据Web Service浏览器接口浏览器接口接口层Mediator层Wrapper层GenBankSWISS-PROTBLAST服务PubMed数字图书馆关键技术及其在生物信息学中的应用36Mediator层查询生成:针对用户请求,借助领域知识本体生成整体查询表达式查询处理/优化:基于查询效率、语义等因素,

25、选择底层信息资源并相应地分解查询方案 执行查询:参照资源元数据,通过内部互操作机制将执行信息发送给wrapper层结果生成:集成各返回的结果信息,整理后发往用户接口层数字图书馆关键技术及其在生物信息学中的应用37结果生成结果生成客户端客户端客户端WrapperWrapperWrapperWrapper查询生成查询生成(根据(根据Ontology生成整体查询)生成整体查询)Ontology提供领域提供领域知识知识查询处理查询处理/优化优化(查询分解,给出查询策略)(查询分解,给出查询策略)执行查询执行查询(SDLIP接口)接口)元数据元数据Web Service浏览器接口浏览器接口接口层Medi

26、ator层Wrapper层GenBankSWISS-PROTBLAST服务PubMed数字图书馆关键技术及其在生物信息学中的应用38Wrapper层 wrapper的作用是降低mediator和底层数据资源交互的复杂度 每个信息资源对应一个wrapper 完成数据格式、查询格式的转换 这部分的研究内容包括针对一类生物信息源的半自动Wrapper生成技术和工具 数字图书馆关键技术及其在生物信息学中的应用39结结果果生生成成客户端客户端客户端WrapperWrapperWrapperWrapper查查询询生生成成(根根据据 Ontology 生生成成整整体体查查询询)Ontology提提供供领领域

27、域知知识识查查询询处处理理/优优化化(查查询询分分解解,给给出出查查询询策策略略)执执行行查查询询(SDLIP 接接口口)元元数数据据Web Service浏浏览览器器接接口口接口层Mediator层Wrapper层GenBankSWISS-PROTBLAST服务PubMed数字图书馆关键技术及其在生物信息学中的应用40本体和资源元数据 利用本体(ontology)提供领域知识,给出系统中各实体概念的定义和其间在语义上的联系,是同一领域内进行语义互操作的基础w 本体已在生物信息学中得到应用。如GO(Gene Ontology)、TaO、RiboWeb、EcoCyc等 资源元数据包括了被集成信息

28、源的URL地址、数据模式、功能、查询格式、访问代价等相关信息,包括了各数据源和mediator内部数据模式的映射,包括了各数据源元数据与本体的映射 本体相对稳定,资源元数据更改较频繁,映射提高了可扩展性数字图书馆关键技术及其在生物信息学中的应用41关键技术问题 生物信息学领域可伸缩、易扩展的信息集成和互操作体系结构 同时支持数据集成和服务集成的信息集成方法 生物信息学的互操作协议,包括用于语义互操作的本体以及集成技术;适用于人类用户浏览和应用程序访问的统一访问接口技术数字图书馆关键技术及其在生物信息学中的应用42该方法的技术特色 可伸缩的(scalable)体系结构,既保持原有资源继续提供服务

29、,又能整合多个自治资源提供协同的服务;可扩展的(extensible)集成模式,既充分利用现有的信息资源,并能有效整合今后不断出现的新兴资源;综合的(comprehensive)集成能力,同时支持数据源集成和服务集成;一致的(coherent)访问接口,终端用户和应用程序可借助统一的访问接口利用集成的信息和相关服务。数字图书馆关键技术及其在生物信息学中的应用43知识发现DNA Minerq 从海量的生物数据库中发现有用的多次出现的模式是数据挖掘技术在生物信息学中应用的重要目标。挑战:w 序列长,隐含其中待发掘的模式也很长w 生物序列模式包含变异、插入和删除q DNA-Miner由集成的DNA数

30、据库、模式发掘模块和用户界面三个部分组成q 模式发掘模块完成三项功能:w 发掘重复模式 一个DNA序列和模式的定义,找出该序列中所有(部分)满足定义的重复模式w 发掘隐含的基序(potential motif)找出数据库中所有满足定义的模式w 基于对隐含基序的分类 利用发掘出来的隐含的基序建立分类规则、总结出主要的每类序列的主要特征和主要差异,便于对新基序的分析和归类数字图书馆关键技术及其在生物信息学中的应用44结论q信息是重要的战略资源,需要充分地加以创造性的利用qInternet(WWW)建立了基本的信息发布机制,但缺乏合理的信息组织和管理机制q数字图书馆是一条解决上述问题的有效途径,被认为是下一代Internet网上信息资源的管理模式q生物信息学是数字图书馆的一个重要应用领域q数字图书馆技术可以为生物信息学研究提供技术支持

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!