基于Wikipedia的中文命名实体识别研究

上传人：痛*** 文档编号：165140195 上传时间：2022-10-26 格式：PPT 页数：36 大小：5.85MB

收藏版权申诉举报下载

第1页 / 共36页

第2页 / 共36页

第3页 / 共36页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《基于Wikipedia的中文命名实体识别研究》由会员分享，可在线阅读，更多相关《基于Wikipedia的中文命名实体识别研究（36页珍藏版）》请在装配图网上搜索。

1、基于Wikipedia的中文命名实体识别研究中山大学计算机科学系潘家铭指导老师：汤庸教授，肖菁老师2022-10-251/36基于Wikipedia的中文命名实体识别研究研究意义、现状及目标理论探究命名实体识别系统设计与实现测试方案与结果总结与展望报告提纲2022-10-252/36报告提纲研究意义、现状及目标理论探究命名实体识别系统设计与实现测试方案与结果总结与展望2022-10-253/36中文命名实体识别的意义中文自动分词(CWR)命名实体识别(NER)中文自然语言处理中文信息处理(CNLP)1.“词”是否有清晰的界定2.分词和理解孰先孰后3.分词歧义消解4.未登录词的处理文献

2、 112基础步骤1.没有天然的识别标志2.开放类，内容庞大3.随着时间推移而扩展4.形式不统一5.多出现歧义文献1318用于中文信息检索中文信息检索、中文文本自动校对中文文本自动校对、机器翻译机器翻译、汉语语汉语语音合成音合成、语音识别语音识别等等具体应用1重点、难点流行的应用2022-10-254/36存在的问题存在的问题未登录词的问题；需要大规模词典的支持；不同类型命名实体的识别问题的统一解决；现存方法多数需要人手标注语料，没有成熟的自动标注方法。中文命名实体识别的研究现状现有的成熟方法现有的成熟方法中文分词的方法中文分词的方法：20基于词典方法21基于统计方法22,7,8混合方法12,

3、20命名实体识别的方法命名实体识别的方法：基于规则方法34基于统计方法14混合识别方法18,35,36机器学习解决方案机器学习解决方案隐马尔可夫(HMMs)、最大熵(MEMs)、支持向量机(SVMs)用于解决序列标注问题得到广泛研究。13,49,19CRFs模型用于解决序列标注问题(STP)，包括命名实体识别问题。2022-10-255/36探究非人工标注专用语料库在命名实体识别应用的可行性(引入Wikipedia 数据库)。对开源百科全书数据库的数据进行提取并建立索引以便提取，作为词典来应用定义中文命名实体特征，使用CRFs模型进行识别任务的训练和测试。定义相适应的研究机器学习模型和中文Wi

4、kipedia数据库结合应用的方法和效果本论文的研究目标及工作中文命名实体识别研究的意义中文命名实体识别研究的现状英文Wikipedia数据库是研究热点使用Wikimedia提供的中文Wikipedia数据库，包括数据Wikipedia文章文本以及链接等数据。使用开源搜索引擎Indri对中文Wikipedia建立索引，并创建结合Wikipedia本身组织特点的词典，作为系统的语料库。使用了CRF+开源模型作为建模框架，定义了SYSUNER识别器的中文命名实体识别特征模板和相关的数据结构。使用该模型进行了训练。引入了N-最佳选取算法(N-Best)、词典动态更新等机制，提高识别系统的性能。对系统

5、进行开放性对比测试和优化，得到实验结果。2022-10-256/36报告提纲研究意义、现状及目标理论探究命名实体识别系统设计与实现测试方案与结果总结与展望2022-10-257/36中文Wikipedia包含人类所有知识领域的百科全书。允许了大众的广泛参与，信息得到及时有效更新。内容开放，便于进行研究巨大的条目数量及数据量规范的分类特殊的标注方法，可用于信息提取2022-10-258/36中文Wikipedia的结构特点消除歧义页可利用于识别实体的别名重定向页，可利用提取命名实体实体分类，用于辨别命名实体的类型实体间用链接(link)相互指向，链接可被提取使用几种常用的结构，能获取实体的重要信

6、息Wikipedia内容经过规范的标注，能使用程序提取实体之间形成网状关系，可使用迭代方式提取实体关系2022-10-259/36中文Wikipedia源代码转换Wikipedia标签可被提取，转换成标注文本的格式可用于机器学习模型训练的自动标注语料2022-10-2510/36条件随机场(CRFs)使用稀疏矩阵来存储特征函数的值。最优标注序列，结合矩阵表示后的计算公式(P32)最优标注序列计算公式(P31)2022-10-2511/36CRFs的特征函数二元特征函数的形式依赖关系依赖关系命名实体标注的各个词之间存在着前序马尔可夫依赖关系。特征函数特征函数在CRFs模型进行训练过程中，需要定义

7、一系列二元特征函数，用于辨别某一个单元是否符合某种特征。特征的作用特征的作用根据已定义的特征和训练数据，CRFs对目标内容执行标注，其判断的依据是特征函数的结果。2022-10-2512/36CRFs训练算法模型训练模型训练对模型的参数集进行估计的过程经典算法经典算法优化的迭代缩放(improved iterative scaling，IIS)算法用作参数估计25L-BFGS更具有一般性，更适合用于大标签集的标注应用，且可以直接使用矩阵数据存储512022-10-2513/36L-BFGS(PQN)算法初始化变量和计数器算法结束的Wolfe条件50这个条件通过两个不等式作为判断条件。算法更新步

8、骤，用迭代的方式更新存储矩阵M的数据。其中使用到特征函数的结果。迭代次数，这里可追加次数控制机制，避免收敛速度慢的循环影响算法效率初始化计数器、临时变量和存储矩阵计算Wolfe条件项满足Wolfe条件更新存储矩阵M算法结束是否时间和空间复杂度均为：O(L2NMF)30其中L和N分别为标注和观察序列(句子)的数目，M为句子的平均长度，F为各个标注的序列中活动特征的平均数目。随着标注集的扩大，时间复杂度呈指数级递增则2022-10-2514/36报告提纲研究意义、现状及目标理论探究命名实体识别系统设计与实现测试方案与结果总结与展望2022-10-2515/36系统实现环境环境及模块环境及模块版本版

9、本/说明说明操作系统及运行环境中文Windows Vista，系统内存：2G，CPU:Pentium 4 3.0GHzVisual C+CompilerV 8.0Boost C+Library正则表达式模块V1.35GNU GCC compilerV3.4.5Indri搜索引擎V2.5 开源搜索引擎，提供C+编程接口CRF+模型框架V0.5 开源CRFs模型框架zhwiki-latest-pages-articles.xmlVersion-08-03-11,约718.3MBcategorylinks.sql.gzVersion-08-03-11,约16.0MB2022-10-2516/36系统

10、架构中文Wikipedia数据库为数据源，Indri搜索引擎生成索引并进行检索；索引作为CRFs识别模型的词典使用。CRF+工具建立CRFs 模型。包括经过标注的训练语料，特征模板，C+的类定义文件，CRFs模型的核心等。I/O格式转换利用了N-best筛选算法的附加处理模块。用于优化输出结果。2022-10-2517/36Indri搜索引擎及索引建立Wikipedia数据库原始数据，简单XML格式，未经索引Wikipedia索引转换成TREC数据，并建立索引在索引中检索相关内容，作为训练数据通过调用Runquery()方法，快速获取索引信息。Indri充当了语料库引擎的角色。配置索引的格式索

11、引类型索引类型索引作用索引作用ID索引方便快速搜索到指定ID所在的条目题目索引条目对应的分类(category)对应关系分类索引找到每个分类的父分类姓氏索引辨别姓氏用字别名索引于识别命名实体的别称形式分类条目索引搜索到属于某个分类的条目2022-10-2518/36语料格式转换器(P43)使用Boost:Xpressive正则表达式提取相关标签并进行转换最大匹配粗分词算法对文本进行粗分词。分词过程中只识别词边界，而不必考虑词性。该算法获取最短的词语边界(P46)使用Boost库的工具，把语料转换成CoNLL三元组格式的语料，提供给CRFs模型进行训练。2022-10-2519/36主要数据结构

12、表示一个单独的字实体，作为CoNLL语料的单独一行里的文本数据一个包含多个字的词结构，便于模型识别出词语标记(Token)，用于标注数据集后进行数据分析和整合2022-10-2520/36特征模板两种特征模板：一元特征模板、二元特征模板特征模板通过分析上下文边界特征得到词语特征L表示输出标注的数目，N表示模板宏替换的可能结果的数目，那么总共生成的特征函数数目为(L*N)考虑效率，二元特征模板的数目应尽量减少2022-10-2521/36训练CRFs训练语料分布比例训练的过程又称为编码过程(Encoding)检索相关的条目信息，再使用语料转换器生成CoNLL训练语料。使用L-BFGS训练算法对模

13、型的参数进行估算。2022-10-2522/36中文命名实体识别(数据标注)对CRF+输出的N个标注结果中选取最佳结果(N最佳标注选取算法)；避免标注错误出现。把CoNLL格式的数据转换成符合自然阅读方式的标注数据。基于N-最佳标注选取算法，对新词进行收集，并按分组加入到索引词典中；重建索引。数据标注流程对输入的语料进行标注2022-10-2523/36报告提纲研究意义、现状及目标理论探究命名实体识别系统设计与实现测试方案与结果总结与展望2022-10-2524/36测试指标测试的指标包括召回率R(Recall)、准确率P(Precision)和综合指数F(F-measure)是R和P之间的平

14、衡因子，通常任务召回率和准确率是同样重要的，故取=12022-10-2525/36测试语料由于我们使用了Wikipedia生成的语料进行训练，因而只能采用开放性测试方法。2022-10-2526/36实验设计综合性能测试。测试SYSUNER 系统在最优条件下的性能。增量训练集测试。测试训练语料从小到大递增时系统的性能，反映Wikipedia 数据库训练语料在系统中作用的作用。新词更新测试。测试把新词列表更新至词典索引对系统性能的影响。对比测试。对比同类典型系统的性能指标。2022-10-2527/36测试结果(1)在人名、地名、组织名的识别性能得到了较高的水平。而且，这些方面的性能还有上升的空

15、间。但对于缩写名词的识别并不是很理想。训练数据涵盖的域信息对系统性能也有影响。使用更大涵盖度的训练语料，能明显提高系统的性能。2022-10-2528/36测试结果(2)使用新词更新策略后，测试的结果有一定的提高。与同类系统对比，使用Wikipedia数据库作为训练语料的SYSU表现处于中上水平。2022-10-2529/36讨论CRFs 模型在显示了训练精度精度优势的同时，也暴露了训练复杂度高的明显缺点。弥补基于Wikipedia 建立的词典索引的词汇量不足，可以尝试引入的外部命名实体词典。SYSUNER 对命名实体缩写的识别效果并不理想。使用最大匹配分词算法来进行粗分词，因为词语边界歧义的

16、存在，会导致分词错误，进而影响系统的性能。2022-10-2530/36报告提纲研究意义、现状及目标理论探究命名实体识别系统设计与实现测试方案与结果总结与展望2022-10-2531/36Wikipedia索引贡献：Wikipedia到索引的转换工作：Indri建立索引与检索32 /362022-10-25主要贡献和结论贡献：仅使用Wikipedia作为单一数据源的尝试。Wikipedia索引其他标注语料训练精度序列标注适应性准确度Approved语料格式转换器CRF+I/O格式转换器粗分词算法CRF+N-Best算法新词更新策略贡献：证实CRF模型的性能工作：定义的模型工作顺利未来工作

17、Wikipedia 的很多特性还可以被利用。CRFs的训练对系统的计算和存储能力的要求都很高，这点不利于我们的方法在PC系统的使用。粗分词算法的缺陷会带来系统局部分词错误，在极端条件下，错误还有可能扩展到整个句子，今后需要引入更有效的分词算法和歧义处理方法，提高粗分词的正确率。针对一些词性识别的错误，需要探究原因，并对特征或模型本身进行改进。2022-10-2533/36研究生阶段其他参与的工作参与实验室项目参与实验室项目中山大学协调软件实验室与慧通软件公司软件平台合作项目中山大学协调软件实验室与广州科韵数码合作报单系统项目撰写学术报告撰写学术报告中文姓名识别综述报告基于Spoon的代码分析工具研究学院担任工作学院担任工作2006年11月至今任信息科学与技术学院学生助理辅导员2022-10-2534/3635 /362022-10-25致谢感谢我的导师汤庸老师，指导老师肖菁老师，在成文过程中，他们给了很多技术性的指导。感谢我的亲人、同学和朋友。特别感谢，余峰、黄永钊两位优秀同学的帮助。感谢评委们的辛勤劳动。谢谢观看欢迎指正批评2022-10-2536/35基于Wikipedia的中文命名实体识别研究

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

基于Wikipedia的中文命名实体识别研究

最新文档

相关资源

相关搜索