072529_李荣国_信息抽取技术及前景浅析报告

上传人:陈** 文档编号:104634223 上传时间:2022-06-10 格式:DOCX 页数:9 大小:48.63KB
收藏 版权申诉 举报 下载
072529_李荣国_信息抽取技术及前景浅析报告_第1页
第1页 / 共9页
072529_李荣国_信息抽取技术及前景浅析报告_第2页
第2页 / 共9页
072529_李荣国_信息抽取技术及前景浅析报告_第3页
第3页 / 共9页
资源描述:

《072529_李荣国_信息抽取技术及前景浅析报告》由会员分享,可在线阅读,更多相关《072529_李荣国_信息抽取技术及前景浅析报告(9页珍藏版)》请在装配图网上搜索。

1、信息抽取技术及前景浅析李荣国 072529关键词:信息抽取 信息处理技术 分词 句法及语义分析摘要: 面向实际应用和潜在需求,建立自适应的、可移植的系统是未来信息抽取的发展方向,立足于目前已有的研究成果,建立受测试集驱动、通过机器学习构建有监督机制的规则库并在此基础上实现知识获取将成为一条发展的思路。一、信息抽取概述随着计算机在各个领域的广泛普及和Internet的迅猛发展,社会的信息总量呈爆炸式的指数增长。信息总量的量级,从20世纪90年代初的MB(106)过渡到GB(109)再到现在的TB(1012)。进入21世纪后,全世界信息总量更是以每三年增加一倍的速度递增。据统计,在这些海量信息中,

2、有6070是以电子文档的形式存在。为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取(Information Extraction,IE)正是解决这个问题的一种方法。信息抽取技术是指从一段自然语言文本中抽取指定的事件、事实信息,并以结构化形式描述信息,供信息查询、文本深层挖掘、自动回答问题等应用,为人们提供有力的信息获取工具。也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本,

3、其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据。后文如无说明只涉及中文文本信息抽取。信息抽取技术的最终目的就是开发实用的信息抽取系统,从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间。与信息抽取密切相关的一项研究是信息检索(Information Retrieval,IR)技术。信息抽取并不同与信息检索,两种的功能、处理技术、适用领域均不相同,但它们俩是可以互补的。为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性

4、能。二者的结合能够更好地服务与用户的信息处理需求。另外,和信息抽取相关的技术还有自动文摘、文本理解、自然语言生成、机器翻译和数据挖掘等。二、信息抽取系统的构建在信息抽取技术中,对自由文本进行信息抽取需要运用许多自然语言处理(NLP)知识,所以自由文本信息抽取系统的构建是比较复杂和困难的。在信息抽取系统的构建过程中,最重要的是如何获得抽取模式(Extraction Pattern)。根据抽取模式获得的方式的不同,信息抽取系统的构建主要有两种方法,即知识工程方法(Knowledge Engineering Approach)和机器学习方法(Machine Learning Approach,也叫自

5、动训练方法automatically trainable system)。 知识工程(KE)方法依靠人工编写抽取模式,使系统能处理特定知识领域的信息抽取问题。这种方法要求编写抽取模式的知识工程师对特定知识领域有深入的了解,具有性能好和易开发等优点。这种方法一般用于构建具有以下特点的系统:1. 已有相应的资源,如词典、表等;2. 已经有了可用的规则;3. 数据训练代价大或者不容易实现;4. 抽取的规格变化频繁;5. 性能要求高。机器学习(ML)方法是利用机器学习技术让信息抽取系统通过训练文本来获得抽取模式,实现特定领域的信息抽取功能。任何对特定知识领域比较熟悉的人都可以根据事先约定的规则来标记训

6、练文本。利用这些训练文本训练后,系统能够处理没有标记的新的文本。这种方法构建的系统具有的特点刚好与用KE方法的系统特点相反。知识工程方法的设计初始阶段较容易,但是要实现较完善的规则库的过程往往比较耗时耗力。自动学习方法抽取规则的获取是通过学习自动获得的,但是该方法需要足够数量的训练数据,才能保证系统的抽取质量。下面介绍以下两种信息抽取结构:通用信息抽取结构和Bare Bones结构。通用信息抽取结构:Hobbs提出的,也叫Hobbs结构。将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。其组成如图1所示。图1 信息抽取过程

7、 文本分块:将输入文本分割为不同的部分块。 预处理:将得到的文本块转换为句子序列,每个句子由词汇项(lexical items,词或特点类型短语)及相关的属性(如词类)组成。 过滤:过滤掉不相关的句子。 预分析:在词汇项序列中识别确定的小型结构,如名词短语、并列结构等。 片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一颗分析树或其他逻辑表示形式。 语义解释:从分析树或者分析树片段集合生成语义结构、意义表示或其他逻辑形式。 词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。 共指消解:也称篇章处理,通过确定同一实体在文本不同部分中的不同描述将当

8、前句的语义结构表示合并到先前的处理结果中。 模板生成:由文本的语义结构表示生成最终的模板。当然,不是所有的信息抽取系统都包含所有的模块,并且也未必完全遵循以上的处理顺序。但一个信息抽取系统应该包含以上模块中描述的功能。一个典型的信息抽取系统的工作过程主要包括:1. 用一组信息模式(info patterns)描述感兴趣的信息。信息模式一般可表示为一个简单的句子,如“推出”。系统针对某一领域的信息特征预定义一系列信息模式存于模式库中。2. 对文本进行“适度的”词法、句法及句子分析,并作各种文本标引。这个过程通常包含识别特定的名词短语(人名、机构名等)和动词短语(事件描述、事件陈述)。这需要使用合

9、适的词典、构词规则库和分词算法等等支持。3. 使用模式匹配方法识别指定的信息(找出信息模式的各个部分)。4. 使用上下文关联、指代、引用等分析和推理,确定信息的最终模式。5. 输出结构(例如生成一个关系数据库或给出自然语言陈述等)。典型的信息抽取系统还包括一个预处理过程,目的在于过滤掉与抽取目标不相干掉文本;然后通过词法分析和标引,识别所有相关的词汇(“关键词”识别与标引);句法和语义分析只应用于所有包含了关键词典句子的集合,对每个句子的分析结果近似于该句子的语义框架表示;最后对这些框架进行合并和综合,便可得到所需的信息的各种数据项(关系数据模式的各个字段)。Bare Bones结构:如图2的

10、结构是空骨架(Bare Bones)结构,是Hobbs结构的一个简化。 图2 Bare Bones结构图其实一个信息抽取系统只有图上4个部分是不够的,所以以上结构称为“空骨架”。如图3所示,是一个添加了词分割、部分语音标记、词组理解等内容的完整的、有“血肉”的信息抽取系统。 图3 一个有“血肉”的信息抽取系统结构其中,符号化的工作主要是进行词的分割,类似与Hobbs结构的文本分块。词汇和词法处理则是根据词典和各种标记来理解词汇的意义,从而进行实体的识别。句法分析得到文档的某种结构表示,如完整的分析树或分析树片段集合。领域分析可以分为共指分析和片段结果(模版)的合并两部分。三、中文信息处理技术在

11、信息抽取中的应用信息抽取主要的技术有:a.命名实体识别;b.句法分析;c.篇章分析与推理;d知识获取。根据中文的特点,中文信息抽取具有一定的特殊性,需要以下几种中文信息处理技术的支撑:1. 词典、词语切分和词性标注;2. 句法及语义分析;3. 句群分析与篇章表示。信息抽取技术是针对结构文档、板结构文档、纯文档进行的知识抽取,去除文档中不需要的冗余信息,抽取出对我们有用的知识,并存入结构数据库中。因此,信息抽取技术的核心是从文本中提取信息,如果对于文本中的关键句(中心句)能够使机器理解,则对于提高抽取的精度有很大的帮助。因此,将自然语言(中文)信息处理技术应用与信息抽取技术,将使信息抽取技术更加

12、完善。一般有三种信息抽取方法:基于隐马尔科夫模型的信息抽取(主要利用Baum-Welch算法计算模型初始状态概率、状态转移概率和释放概率,解码问题采用Viterbi算法,学习问题可以采用ML算法和Baum-Welch算法),基于自然语言处理的信息抽取方法和基于规则的信息抽取。下面详细介绍基于规则的信息抽取方法及其可以用到的中文信息处理技术。基于规则的信息抽取需要词典和规则库的支撑,这些规则一般不是通用的,而是针对某个特定领域的。下面对其抽取流程和用到的中文信息处理的关键技术做以下分析。一、信息抽取系统模型基于规则的信息抽模型可设计如图4所示。这是根据Hobbs的通用结构设计的。 图4 基于规则

13、的信息抽取系统结构二、词法分析进行分词(包括词、词组和短语的切分)。词切分正确与否是信息抽取的关键所在。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、基于字符串匹配的分词方法即机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配

14、的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:1) 正向最大匹配法,正向最小匹配法;(由左到右的方向)对于待切分的一段字符串,首先以该字符串的首字为起点进行搜索,直到找到以该字为首字的起点,在字符串中出现的最长(最短,但不为单个字)的词,并以此为标记切出第一个词,并将剩下的字符串作为新的待切分字符串进行相同的处理。2) 逆向最大匹配法,逆向最小匹配法。(由右到左的方向);思想同正向最大匹配法相同。3) 邻近匹配算法(neighborhood match)。 采用首字索引的词表,

15、利用在同一首字下的词条按升序排列这一条件,在找到某个字符串后,在其后面加上一个子得一新字串,如果新子串在词典中出现,那么新词一定在原字串的后面,且相隔不会太原。这一匹配算法就叫邻近匹配算法。4) 最短路径匹配算法。首先根据词典,找出字符串中所有可能的词(也称全切词),然后构造词语切分的有向无环图。5) 最少切分(使每一句中切出的词数最小),等等。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用

16、正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待切分字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串,然后再进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。2、基于理解的分词方法这种分词方法是通

17、过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。3、基于统计的分词方法从形式上看,词是稳定的字的组合,比如在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与

18、字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的各种统计信息,从而进行分词。比如基于统计的最短路径分词方法等。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度

19、快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。1、歧义识别歧义是指同样的一句话,可能有两种或者更多的切分

20、方法。在句子的各个层次(字、词、词组、句、段、篇、章等)间转换过程中都有可能产生歧义或多义的现象,包括切词中的歧义、词的歧义、结构歧义、指代和省略中、的歧义以及各种更复杂的歧义现象。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义(还有组合歧义)。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。此外还有真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖

21、”在这里算不算一个词。歧义字段的发现有两种方法:穷举法和双向扫描法。穷举法是不现实的,可采用双向扫描法,例如采用正向最小匹配和逆向最大匹配同时扫描句子以发现歧义字段。分词消歧的方法主要有以下两种:1) 基于规则的分词消歧预先构建分词预处理中的规则与分词规则,其中分词规则又可分为构词规则和排歧规则。可以在分词前增加一次独立的扫描过程来识别特定的一些短语,这要用到分词预处理中的规则(这样做的主要依据是部分只能作首字或尾字的汉字完全可以作为切分标记)。分词时按照分词规则先确定大概分词,在发生歧义的情况下,将根据排歧规则选择一种切分方式。2) 基于统计的分词消歧这其中又有基于词频的分词消歧方法,以及基

22、于互信息和t-测试差的歧义切分方法等。2、新词识别即未登陆词识别新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名。现今未登录词的获取主要是基于统计的获取方法,有:1) 基于频率的方法;2) 基于均值和方差的方法;3) 基于假设检验的方法;4) 基于互信息的方法,等。机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于信息抽取系统来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。三、命名实体识别主要通过已经手工构建的规则库来识别。其实者也可以通

23、过以上分词算法中的未登录词的获取算法来识别。比如说人名和机构名的识别可以通过特定的中文姓名和机构名的自动识别算法和系统来识别。四、部分句法分析这部分可采用中文文本信息处理中的词性自动标注来实现词性的标注。主要可建立马尔科夫模型和隐马尔科夫模型,构建马尔科夫模型标注器或隐马尔科夫模型标注器。这其中涉及以下几种算法:1. Viterbi算法;2. Volsunga算法;3. Claws算法,等。当然,在信息抽取系统中,不要求识别整个句子的结构。为此,可构建句子片段的句法结构规则,为抽取做准备。一般情况下,需要构建名词和动词规则库,其中名词规则包括名词和它前面的修饰成分,而动词规则包括动词和它的辅助

24、部分。这两种规则库由很多从现实预言中提炼的实例规则组成,一般都比较庞大。之后需要用关联模版来分析各个实体之间的关系,关系模版一般包括两个名词(有时可能有介词),表示两个名词之间的关系。如下面模版: 公司描述:公司名 职位:公司名 五、场景模版匹配以上所以工作都是为场景模版匹配做准备。场景模版用于从句子中抽取事件。如句子“李静从著名的电器制造公司长虹电子集团有限公司董事长的位置上退休了,赵刚将接替他”的场景模版可表示为: 人 从 位置 退休 人 接替 人六、共指分析解决如代词和名词表示同一内容等的问题。七、推理和事件整合在很多情况下,一个事件的部分信息可以进行扩展,所以在模版生成前需要把这些信息

25、进行合并。也就是把隐含在事件中的信息通过推理过程进行明确。四、信息抽取面临的问题虽然有中文信息处理技术的强力支撑,中文信息抽取还是不少问题需要面对。1.语料库的建立有待完善目前自然语言处理领域主要流行的是基于规则和基于统计两种处理思路。基于规则的方法在机器学习自动构建规则库等方面有一定难度,现有系统主要以基于规则的浅层分析方法为主。而基于统计的方法,由于缺乏较大的成熟语料库和标注语料,目前较难开展,尚不占主导地位。另外一个突出表现就是,在自动内容抽取(ACE)测评05年的测评中,由于阿拉伯语缺乏标注语料,尽管有系统参与测试,却没有相匹配的参照库,因此无法进行打分。由此可见,丰富和充实语料种类及

26、数量是一个亟待解决的问题。2.跨文档处理和数据库处理系统的性能有待提高纵观ACE 2007届测评会议,其测评的水平还都局限在对独立文本的处理上,并未实现其预定目标中的跨文档处理和数据库处理。从近两届ACE测试反馈的结果来看,作为其核心抽取任务的实体识别任务尽管已经实现了较高的效率,但是仅仅限于单语种、单文档内的识别,跨文档的识别任务尚未能展开,而其他的测评项目如关系识别、时间识别、事件识别、价值识别等的效率更需要进一步提高。3.中文信息抽取还是比较落后从ACE评测的系统表现可以看出,尽管目前参与中文信息抽取任务的队伍在不断增加,可是成绩普遍偏低。国外有不少机构已经开发出针对中文实现的测试型的信

27、息抽取系统,在国内也已经有较多的单位或机构投入了相当大的精力。在ACE 2005年测评中,哈尔滨工业大学、香港科技大学、北京大学和厦门大学参加了测评,在ACE 2007年测评中,中国科学院自动化所、中国科学院软件所、复旦大学、东北大学也纷纷加入,这表明中文信息抽取的研究在国内得到了较高的重视和发展,虽然有些队伍的最终测评没有完全完成,但已经有比较好的表现。从它们的选择任务上看,主要还是集中于中英文实体,关系识别仅有哈尔滨工业大学、中国科学院软件所参与,北京大学则侧重于时间和价值识别。但是主要问题仍然集中于中文实体识别方面,完整的中文信息抽取系统的实现还处于探索阶段。五、信息抽取的发展趋势1.基

28、础理论与应用研究的双向发展信息抽取技术的发展现状对其未来的发展提出了需求,可以看到信息技术未来的发展趋势主要集中在两个相反发展方向上:一方面,使现有的信息技术嵌入在现有的应用领域中,包括文本检索、基于任务的自动摘要、基于任务的机器翻译、跨文档和多媒体的融合、趋势分析等。现有的技术能够很好地支持类似领域的研究,关键问题是现有系统是否具备充分的抽取精度水平。另一方面,要使信息抽取技术实现革命性的技术进步,仍需要对基础研究加以关注。基础研究即包括更多更新更丰富的技术,也包括与之相适应的测评机制的研究。2.信息抽取的数据来源将会更为广泛从近两届ACE的测试数据来看,数据来源已经不再仅仅是专线新闻、AS

29、R(自动语音识别)、OCR(光学字符识别)文集,还包括了Web信息,这也是目前信息抽取技术发展的一大趋势。Web页面中存在着大量的HTML格式的无结构数据和少量XML格式的半结构数据,而隐蔽网(Hide Web)也包含了网上数据库系统生成的大容量仓储数据,这些信息是十分重要的资源,相应的信息抽取研究也已基于此开展。此外,对于多媒体内容的信息抽取虽然存在难度,但一些专家已经通过引入贝叶斯网络、增量抽取等算法优化系统,取得了较好的效果,并且已提出了跨媒体抽取的相关模型。可见,对于多种信息内容的抽取和整合,无疑将为信息抽取下一步的重要目标和挑战。3.开放域的信息抽取将广泛受到重视在MUC(信息理解研

30、讨会)阶段,信息抽取测评严格限制在特定场景、特定事件和特定语言中,系统移植成本较高。在ACE中,已经取消这种限制,改由用户指定要检测的内容,由系统根据需求自动适应、自动构建抽取框架,即实现开放域的信息抽取。目前通过模式发现、建立信息模型、词类发现等方式,研究者已经逐渐把抽取的重点从半结构化的次语言等受控语料,转向了具有更多非结构化特征的原始文本语料,未来在这个领域的研究将是非常吸引人的。4.基于ontology的信息抽取Ontology可译为“本体”、“本体论”或“知识本体”,可理解为对某种概念化体系的规范说明。其中有两层意义:一是先要对某个领域进行抽象、归纳,即把这一领域概 念化;二是再对这

31、一概念化的结果用一种人、计算机、代理都可以理解的通用规范表达出来,表达出来后就形成了一个Ontology。它是描述概念及概念间关系的概念模型,通过概念之间的关系来描述概念的语义。基于ontology的信息抽取(ontologyBased IE,OBIE)将ontology视为一种语义标注语料,并将其作为系统输入之一,同时系统输出的格式也规定为ontology,从而实现非结构化文本向规范化知识表达的转换。现有基于ontology的信息抽取系统多从ontology中的概念出发,将机器训练和人工调整的方法相结合确立规则,实现知识发现。另外,一些专家引入语法分析和字典术语机制作为判断概念之间关系的方法

32、,也取得了较好效果。ACE测评会议充分借鉴了ontology的思想,规定了标准化的XML格式文档APF作为输入语料和输出结果描述方法,并在任务的定义上采用类型、子类型和论元 作为基本结构,这也从一个侧面体现了ontology对于信息抽取的推动作用。目前,ontology在信息抽取研究中的作用尚未发挥充分,本体的自动构建等技术仍有待成熟,基于ontology的信息抽取技术具有很大的发展空间。总之,面向实际应用和潜在需求,建立自适应的、可移植的系统是未来信息抽取的发展方向,立足于目前已有的研究成果,建立受测试集驱动、通过机器学习构建有监督机制的规则库并在此基础上实现知识获取将成为一条发展的思路。伴随着互联网及数字图书馆等相关技术的发展,信息抽取在互联网及图书馆信息处理自动化中将具有深远的影响。未来的现代数字化图书馆建设,应当充分利用信息抽取技术,发挥其巨大的作用。参考文献:中文文本信息处理的原理与应用(苗夺谦 卫志华 编著 清华大学出版社) 网络资源:ACE测评会议 网络其他资源

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!