软件工程毕业设计（论文）基于WORDNET的XML文档语义相似性计算方法

上传人：仙*** 文档编号：81810156 上传时间：2022-04-27 格式：DOC 页数：67 大小：1.73MB

收藏版权申诉举报下载

软件工程毕业设计（论文）基于WORDNET的XML文档语义相似性计算方法_第1页

第1页 / 共67页

软件工程毕业设计（论文）基于WORDNET的XML文档语义相似性计算方法_第2页

第2页 / 共67页

软件工程毕业设计（论文）基于WORDNET的XML文档语义相似性计算方法_第3页

第3页 / 共67页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《软件工程毕业设计（论文）基于WORDNET的XML文档语义相似性计算方法》由会员分享，可在线阅读，更多相关《软件工程毕业设计（论文）基于WORDNET的XML文档语义相似性计算方法（67页珍藏版）》请在装配图网上搜索。

1、毕业设计（论文）说明书学院软件学院专业软件工程年级 2007 级姓名指导教师2011年 6 月 15 日毕业设计（论文）任务书题目：基于WORDNET的XML文档语义相似性计算方法学生姓名学院名称软件学院专业软件工程学号指导教师职称教授讲师一、原始依据1、工作基础：近年来，随着互联网技术的飞速发展，网络上的信息资源呈不断的扩张趋势，无论在数量还是领域范围上，都爆炸式增长。这在丰富网络资源的同时，使得有效信息、知识的获取变得更加困难，因此，关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。事实上，相似性及其度量方法一直是数据

2、挖掘、机器学习等领域中的研究主题之一，也是Web数据挖掘系统所要解决的关键问题之一。从1996年W3C提出XML工作草案，1997年召开第一次XML会议开始，到近年来XML、语义网（Semantic Web）及OWL等相关技术的研究与发展，使得面向内容的数据挖掘等成为可能。在面向内容的智能信息处理中，基于结构（如树、图）表示模式，计算结构化数据的结构相似性并从中挖掘知识，在数据挖掘及相关领域得到了广泛的研究。但数据的结构相似性研究并不能解决语义冲突问题，不能从根本上消除网络环境下的信息孤岛和实现信息资源的互联互通和资源共享。随着语义网和本体（ontology）的发展，这个问题得到了较好的解决，

3、国内外学者从不同的角度（概念相似度、文档相似度、半结构文档相似度）都进行了深入研究，而XML作为一种应用越来越广泛的文档记录方式，对XML语义相似度的研究也受到了普遍的关注和研究。但目前对基于XML半结构语言计算语义相似性的研究没有一套成熟、高效的计算方法，自然语言与计算机语言之间仍然存在一道鸿沟，严重影响了对互联网信息的应用效率。2、研究条件：在目前研究成果的基础上，依托于南开大学信息学院数据库与信息系统实验室。近7年来，该室对XML结构相似性计算方法、基于结构相似性计算的Web挖掘方法等进行了深入研究，在此基础上，展开了XML的语义相似性研究。研究平台和应用环境为Windows 7，软件开

4、发工具为Visual Studio 2008。3、应用环境：通过本方法，结合适当的领域词典，可对用户需求的信息、知识进行有效匹配，结合南开大学的已有项目，研究成果将应用于Web数据挖掘方法与系统；同时，还可以应用于知识工程、数字图书馆、各专业领域的信息检索、信息过滤、自然语言处理、数据集成及语义Web等许多方面。4、工作目的：本课题基于由普林斯顿大学设计的认知语言学词典WordNet，设计并实现一套用于计算XML基本语义相似性的计算方法。并以本课题为基础，为将来在更广阔范围的应用做准备。二、参考文献1Lin D. An Information-Theoretic Definition of S

5、imilarityC.In: Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. 1998.296-304.2Tversky, A. 1997. Features of similarity. J. Psychological Rev. 84: 327-352.3Boanerges, A. M., Christian, H. W., Satya, S. S., Amit, S. I. a

6、nd Budak A. 2005. Template based semantic similarity for security applications. Technical Report, LSDIS Lab, Computer Science Department, University of Gerogia, January.4Jiang, J. J., David, W. C. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. Proc. Int. Conf. Research on

7、 Computational Linguistics. Taiwan, pp. 1-15.5Peter, F., Martin, K, Erich J. N. 1991. Semantic vs. structural resemblance of classes to appear in special SIGMOD RECORD issue on semantic issues in Multidatabase Systems, 20: 4.6Goldstone R L, Son J Y. Similarity J. Psychological Review. 2004, 100: 254

8、-278.7Li M, Chen X, Xin M L, et al. The Similarity Metricc. In: IEEE Transactions on Information Theory. 2003. 863-872.8邱明. 语义相似性度量及其在设计管理系统中的应用D. 博士，浙江大学，2006.9Bulskov H, Knappe R, Andreasen T. On Measuring Similarity for Conceptual QueryingC. In: Proceedings of the 5th International Conference on

9、Flexible Query Answering Systems. Springer-Verlag, 2002. 100-111.10宋玲. 语义相似度计算及其应用研究. 博士，山东大学，2009.11黄世国，耿国华. 语义相似性测度方法研究综述计算机应用与软件 2008（25）.12Yang, D. and Powers, D. M. W. Measuring Semantic Similarity in the Taxonomy of WordNet. In Proc. Twenty-Eighth Australasian Computer Science Conference( ACS

10、C2005), Newcastle, Australia. CRPIT, 38. Estivill-Castro, V., Ed. ACS. 315-322. 2005.13Budanitsky, Alexander. Lexical semantic relatedness and its application in natural language processing. Technical Report CSRG-390, Computer Systems Research Group, University of Toronto, August. 1999.14周子力. 基于Word

11、Net的本体构建及其在安全领域应用关键技术研究. 博士，华东师范大学，2009.15 盛立东. 模式识别导论M北京:北京邮电大学出版社，2010.三、设计（研究）内容和要求研究内容：1. 了解XML语义相似性方法；2. 熟悉WordNet的使用方法；3. 基于WordNet实现基本语义相似性计算算法；4. 编写程序实现上述算法。主要指标与技术参数：本课题用于计算XML文档的语义相似性，最终实现的算法有两个技术指标，即算法的合理性和算法的效率。（1）算法的合理性指标：相似性算法通过计算给出两段XML文档之间的相似度（结果介于01，其中，值越大说明两者越相似，取值为1是，两者完全一样，取值为零时，

12、两者没有相似性），通过实验者的主观判断和WordNet词典的词类划分判断结果是否准确。（2）算法的效率：算法要求时间尽可能快，由于算法越精确需要考虑的参数越多，计算量越大，因此最终的算法需要在准确性和效率之间取得平衡。具体要求：基于WordNet实现基于语义相似性计算算法。指导教师（签字）年月日审题小组组长（签字）年月日天津大学本科生毕业设计（论文）开题报告课题名称基于WORDNET的XML文档语义相似性计算方法学院名称软件学院专业名称软件工程学生姓名指导教师一、课题的来源及意义近年来，关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。这不仅是由于XML（Ex

13、tensible Markup Language）等互联网新技术的不断发展对已有技术带来的挑战，更是因为随着互联网技术的飞速发展，网络上的信息资源呈不断的扩张趋势，无论在数量还是领域范围上，都爆炸式增长，人们已经不仅仅满足于以往对信息的简单获取，对知识的需求在不断扩大，以往偏重结构性相似的匹配方法已经不能满足需求，语义相似性测量逐渐成为关注的热点。语义相似性测量方法已经被广泛的应用在了数据挖掘和知识获取方面以及国防安全、企业应用等领域。从1996年W3C提出XML工作草案，1997年召开第一次XML会议开始，到近年来XML、语义网（Semantic Web）及OWL等相关技术的研究与发展，使得

14、面向内容的数据挖掘等成为可能。和文本文档相比，XML文档具有“自描述”、“树形结构”、“结构嵌套”等特点。随着XML在数据挖掘、分类聚类、数据交换、内容管理、Web服务等方面的广泛应用，如何高效的解决XML语义相似度的测量方法，成为人们普遍关注的一个焦点。WordNet是普林斯顿大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的词典。名词、动词、形容词和副词各被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连结。因此我们使用WordNet作为参考，判断自然语言之间语义的相似性。这也成为大家普遍接受的一种做法。综上所述，我们使用基于

15、WordNet的语义相似性测量方法，最终能够基本辨别不同文档之间的语义相似性，为数据挖掘、知识获取、Web应用等领域提供一种语义相似性测量的解决方案。二、国内外发展状况目前XML文档相似度的研究已经取得了许多进展。由于XML文档具有“自描述”、“树形结构”、“结构嵌套”等结构特点，许多研究通过树的编辑距离来计算XML文档之间的相似度，距离和相似度之间成反比例关系，距离越大，相似度越小；另有一些研究直接比较树中节点之间的相似度，先计算文档之间相同节点的个数，通过共同节点和两个文档所有节点个数的比值来衡量文档之间的相似度。这种方法忽略了XML文档的结构特点；还有研究基于拥有相似的路径集合则XML文

16、档相似的假设，通过路径集合的比较计算XML文档之间的相似度。这些研究取得了一些成果，但仍有不足，语义和结构相似度不能兼顾。这些年，也有一些研究将节点本身的相似度纳入了考量范围，文献10综合考虑了文档节点的语义相似性和结构特点，但研究尚不成熟，均在计算精度和效率之间难以取舍。三、本课题的研究目标和研究内容研究目标：基于WordNet，实现XML文档基本语义相似度计算算法，为后期语义相似度计算算法与已有结构相似度计算算法的结合做准备。研究内容：1 了解现有XML语义相似性方法；2 掌握WordNet的使用方法；3 基于WordNet实现基本语义相似性计算算法；4 编写程序实现上述算法。四、研究方法

17、和研究手段本课题以WordNet为依托，在抽取出XML文档的节点之后，通过WordNet的同义词集合建立各自的同义词集合，通过计算两个集合中词对的语义相似度，即利用WordNet中节点的位置深度表示节点语义值，从而构建节点语义相似度矩阵，并将这些相似度值加权求值后，计算节点之间的语义相似度。进而通过进一步的计算，考虑文档之中所有节点的相似度情况，给出两个文档之间的语义相似度结果。本课题的开发语言为C#，应用框架为.Net，开发工具为Visual Studio 2008，研究平台为Windows 7，在代码实现过程将遵循软件工程的开发方法，给出合理的实验数据，进行充分的实验验证，保证算法的准确有

18、效。五、进度安排2010-12-202011-1-10 查阅国内外研究背景及现状。2011-1-112011-2-17 对本课题进行调研学习。2011-2-182011-3-10 熟悉编程环境和相关语言的开发技术。2011-3-112011-4-10 对课题相关领域的深入调研学习，算法初步设计。2011-4-112011-4-20 算法设计和论证。2011-4-212011-5-18 代码实现。 2011-5-192011-6-5 测试、性能评估及毕业论文定稿。六、参考文献1Lin D. An Information-Theoretic Definition of SimilarityC.In

19、: Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. 1998.296-304.2Tversky, A. 1997. Features of similarity. J. Psychological Rev. 84: 327-352.3Boanerges, A. M., Christian, H. W., Satya, S. S., Amit, S. I. and Budak A. 2

20、005. Template based semantic similarity for security applications. Technical Report, LSDIS Lab, Computer Science Department, University of Gerogia, January.4Jiang, J. J., David, W. C. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. Proc. Int. Conf. Research on Computationa

21、l Linguistics. Taiwan, pp. 1-15.5Peter, F., Martin, K, Erich J. N. 1991. Semantic vs. structural resemblance of classes to appear in special SIGMOD RECORD issue on semantic issues in Multidatabase Systems, 20: 4.6Goldstone R L, Son J Y. Similarity J. Psychological Review. 2004, 100: 254-278.7Li M, C

22、hen X, Xin M L, et al. The Similarity Metricc. In: IEEE Transactions on Information Theory. 2003. 863-872.8邱明. 语义相似性度量及其在设计管理系统中的应用D. 博士，浙江大学，2006.9Bulskov H, Knappe R, Andreasen T. On Measuring Similarity for Conceptual QueryingC. In: Proceedings of the 5th International Conference on Flexible Quer

23、y Answering Systems. Springer-Verlag, 2002. 100-111.10宋玲. 语义相似度计算及其应用研究. 博士，山东大学，2009.11黄世国，耿国华. 语义相似性测度方法研究综述计算机应用与软件 2008（25）.12Yang, D. and Powers, D. M. W. Measuring Semantic Similarity in the Taxonomy of WordNet. In Proc. Twenty-Eighth Australasian Computer Science Conference( ACSC2005), Newca

24、stle, Australia. CRPIT, 38. Estivill-Castro, V., Ed. ACS. 315-322. 2005.13周子力. 基于WordNet的本体构建及其在安全领域应用关键技术研究. 博士，华东师范大学，2009.选题是否合适：是否课题能否实现：能不能指导教师（签字）年月日选题是否合适：是否课题能否实现：能不能审题小组组长（签字）年月日摘要随着XML在数据挖掘、分类聚类、数据交换、内容管理、Web服务等方面的广泛应用，XML文档的相似性比较成为人们普遍关注的一个焦点。而如何有效的解决XML语义相似度的测量方法，仍然是一个悬而未决的问

25、题。针对于这一问题，本文在论述了当前主流概念语义相似度比较算法的基础上，以WordNet为本体给出了一个更为精确的概念语义相似性比较算法，为该领域，以及其他应用领域，包括XML文档、普通文档、其它文档以及信息检索数据挖掘等方面都会有一定贡献。在概念语义相似度比较基础之上本文参照XML文档的结构特性设计了一种XML文档语义相似性比较算法，该算法以XML文档的节点语义相似性为基础，在经过加权求值，给出文档整体的语义相似度，经试验论证，该算法是可行的。在当前XML文档语义相似性比较研究还没有大规模展开的情况下，该算法具有一定的探索意义和使用价值。关键词：语义相似度；概念；WordNet；XML；XM

26、L文档语义相似度ABSTRACTWith the use of XML in data mining, classification and clustering, data exchange, content management, Web services and so on, how to decide the similarity between XML documents is becoming a common problem. And theres still no answer for where is the effective method to measure the s

27、emantic similarity between XML documents. This paper gives a more accurate way for this problem based on WordNet , the ontology , with the discussing of current mainstream ways of semantic similarity between concepts.Based on the semantic similarity between concepts and the structure characteristics

28、 of XML, this paper gives a new algorithm for semantic similarity between XML documents. It count the semantic similarity of XML-elements as units, and weights them, and gives the overall semantic similarity of XML documents. The algorithm has been proved to be feasible. And its a little step forwar

29、d that the study of semantic similarity between XML documents has not been focused yet.Key words：semantic similarity；concept；WordNet；XML；semantic similarity between XML documents目录第一章绪论11.1 研究背景11.2 研究现状21.3 研究意义21.4 主要内容和组织结构31.5 本章小结3第二章语义相似度研究42.1 本体概述42.2 WordNet简介52.3 语义相似性、语义相关性和语义距离62.4 本章

30、小结6第三章基于WordNet的概念语义相似度算法73.1 基于WordNet的语义相似性算法综述73.1.1 网络距离模型73.1.2 信息理论模型93.2 当前算法存在的问题93.3 一种新的概念语义相似度计算方法93.4 算法分析113.5 本章小结12第四章基于WordNet的XML语义相似性算法134.1 XML文档简介134.2 基于语义相似性计算XML文档的语义相似性134.3 两种概念相似性测量方法的选择154.4 XML文档语义相似性测量的其他问题164.5 本章小结17第五章基于WordNet的XML语义相似性算法设计185.1 需求分析185.2 概要设计205.2

31、.1 模块设计205.2.2 界面设计215.3 详细设计225.4 本章小节25第六章 XML语义相似性比较算法实现与测试266.1 编码实现与运行结果266.2 测试306.2.1 测试计划326.2.2 测试结果336.3 本章小结34第七章总结与展望357.1 总结357.2 展望35参考文献36外文资料中文译文致谢3天津大学2011届本科生毕业设计（论文）第一章绪论1.1 研究背景近年来，关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。这不仅是由于XML（Extensible Markup Language）等互联网新技术的不断发展对已有技术带来的挑战

32、，更是因为随着互联网技术的飞速发展，网络上的信息资源呈不断的扩张趋势，无论在数量还是领域范围上，都爆炸式增长，人们已经不仅仅满足于以往对信息的简单获取，对知识的需求在不断扩大，以往偏重结构性相似的匹配方法已经不能满足需求，语义相似性测量逐渐成为关注的热点。语义相似性测量方法被广泛的应用在了数据挖掘和知识获取方面以及国防安全、企业应用等领域。而随着使用本体表示相关应用的领域知识被越来越多的人的认同（所谓本体，是一种形式化的，对共享概念明确而又详细的说明1，相关知识领域用到的所有词汇都可以在本体中找到相应解释，这些词汇也被成为概念。）,数据挖掘和知识获取的必要步骤之一，如何实现不同本体之间的信息交

33、换成为一个不可忽视的问题；换言之，要实现不同本体间的信息交换，或者想要挖掘出所需知识，就必须找到与所需概念相似的概念。因此，问题也就被简化为如何决定不同系统或者不同领域间或者同一系统同一领域内的两个概念的语义相似度。研究与应用并重，我们将重点放在了如何基于本体测量XML的语义相似度。从1996年W3C提出XML工作草案，1997年召开第一次XML会议开始，到近年来XML、语义网（Semantic Web）及OWL等相关技术的研究与发展，使得面向内容的数据挖掘等成为可能。和文本文档相比，XML文档具有“自描述”、“树形结构”、“结构嵌套”等特点。随着XML在数据挖掘、分类聚类、数据交换、内容管理

34、、Web服务等方面的广泛应用，如何有效的解决XML语义相似度的测量方法，成为人们普遍关注的一个焦点。有了概念语义相似度的基础，解决XML语义相似度的测量问题首先需要选择一个适合的通用本体，我们采用WordNet，一种大家普遍接受的通用本体，作为判断自然语言之间语义的相似性的依据。WordNet是普林斯顿大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的词典。名词、动词、形容词和副词各被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连结。综上所述，我们以WordNet作为本体，以一种概念语义相似度测量作为基础，最终能够基本辨别不同X

35、ML文档之间的语义相似性，为数据挖掘、知识获取、信息交换、Web应用等领域提供一种XML语义相似性测量的解决方案。1.2 研究现状目前XML文档相似度的研究已经取得了许多进展。由于XML文档具有“自描述”、“树形结构”、“结构嵌套”等结构特点，许多研究通过树的编辑距离来计算XML文档之间的相似度，距离和相似度之间成反比例关系，距离越大，相似度越小；另有一些研究直接比较树种节点之间的相似度，先计算文档之间相同节点的个数，通过共同节点和两个文档所有节点个数的比值来衡量文档之间的相似度。这种方法忽略了XML文档的结构特点；还有研究基于拥有相似的路径集合则XML文档相似的假设，通过路径集合的比较计算X

36、ML文档之间的相似度。这些研究取得了一些成果，但仍有不足，均忽略了节点本身语义的相似性。而在语义相似性测量方面，当前研究的主要焦点仍然是概念相似度测量，还很少有研究将概念相似度测量应用到XML文档中来实现XML文档的语义相似性比较。这主要是因为如何实现概念相似度测量还不成熟，仍然没有一个统一的被大家认同的方法来实现概念相似度测量，因此，概念相似度测量仍然是当前的研究热点。而少量的文献中虽然提到了XML语义相似度测量，但由于将过多的精力放在了其节点的语义相似度上，而忽略了文档本身的结构性。在概念相似度测量方面，主流的研究方向分为两种，一种根据概念之间的距离来决定概念的相似程度，另一种根据信息学理

37、论，以两个概念共有信息量的多少来决定概念的相似程度。以距离测量的方法有太多的经验判断，缺少说服力，同时计算复杂度高；信息学理论有一个很好的评价相似性的方法，即以共有信息量的多少为标准，但却忽视了概念之间的方向性等信息，比如“猫”和“哺乳动物”作比较，反过来“哺乳动物”和“猫”作比较，两者有什么不同呢？显然，两者的共有信息量是一样的。但到底是“猫”和“哺乳动物”像，还是“哺乳动物”和“猫”像呢？显然是前者更像一些，这就是方向问题。在XML语义相似性测量方面，当前的主要方法是遍历每一个节点，比较每一个节点的语义相似度，计算出相似节点的个数和总结点个数的比作为XML文档相似度的依据，一方面它忽略了文

38、档本身的结构性，另一方面为每一个节点执行一遍概念相似度算法复杂度太高。1.3 研究意义通过本课题的研究，给出了一个更为精确的概念语义相似性比较算法，为该领域，以及其他应用领域包括XML文档、普通文档、其它文档以及信息检索数据挖掘等方面都会有一定贡献；同时在该算法的基础之上给出了一种XML文档语义相似性比较算法，在当前XML文档语义相似性比较研究还没有大规模展开的情况下，具有一定的探索意义和使用价值。1.4 主要内容和组织结构本文的第一部分绪论主要阐述了课题的必要性和意义；第二部分简要叙述了语义相似性研究的基本知识，并对后文将要用到的工具WordNet进行了介绍；第三部分在已有算法的基础上给出了

39、一种更加精确的概念语义相似性比较算法；第四部分结合概念语义相似性比较算法给出了一种XML文档语义相似性比较算法；第五部分论述了XML文档语义相似性比较算法的实现过程；第六部分对本文进行了总结并对将来的发展方向进行了论述。1.5 本章小结本章主要对课题开展的背景、必要性和意义进行了论述；并叙述了本文的结构安排。第二章语义相似度研究2.1 本体概述“本体（ontology）”一词源于哲学领域，在古希腊罗马哲学中，本体论主要研究的是对世界本源或基本构成的探究，根据Webster词典的定义，本体是关于存在的物体的本质或者各种存在的物体的本质的规范定义。然而，计算机领域对“本体”赋予了新的定义，进而被

40、引进信息科学领域。在信息科学领域，本体的定义是一直发展着的，目前对于本体的统一定义是“本体是一种形式化的，对共享概念明确而又规范的说明”。在信息科学领域，本体被作为所研究领域的一种语义基础，即在本体中可以找到领域中每一个词汇的语义（这里的领域值特定的范围，比如化学领域、餐饮领域或者语言学领域、人工智能、信息提取等等）。本体的基本元素是概念，概念的表现形式为词汇，即一个词汇可以有多个语义，可以表达多个概念，而同一个概念也可以被多个词汇表达。因此，表达同一概念的词汇构成类。类和概念之间加入适当的关系，使各个独立的概念和类相连，也就构成了一个本体。这些关系可以被简单分为父子关系、部分整体关系、同义词

41、关系等。有很多方法被用来表示一个本体，方法的选择取决于研究领域对本体的不同需求，也就是对概念密度和概念间关系的组织强度的需求。同一领域，本体A通过100个概念来描述，而本体B通过10000个概念描述，显然本体B的概念密度更大，描述更精确，同时，概念间的关系是多种多样的，本体A可能只考虑了父子关系，而本体B考虑了所有关系。在具体应用中，一个领域的知识库，一个词典，一个语义网都可以被用来当作一个本体。目前最流行的一种本体组织方式是将本体组织成树状结构的，每一个概念均被表示为树形结构中的一个节点，每一个节点都有它的父亲节点、兄弟节点和子节点。父亲节点是当前节点所表示概念的上一级概念，比如“狗”的上一

42、级概念可能为“哺乳动物”；兄弟节点是父亲节点相同的节点，比如“哺乳动物”的子节点可能有“狗”、“猫”、“猩猩”等等，那么“狗”的兄弟节点即为“猫”和“猩猩”；子节点为当前概念的下一级概念，比如“狗”的下一级概念可以为“猎犬”、“牧羊犬”等等。WordNet就是这样一种组织方式。本体有许多分类方式，一种常用的方式是根据内容分为三类：领域本体：本体内容适用于特定学科领域；通用本体：本体内容包含具有普遍意义的客观世界的常识；任务本体：本体本身为用于解决特定任务的术语集合。WordNet属于目前常用的一种通用本体。综上所述，我们对于本体的选择，一方面取决于对概念密度和概念间关系的组织强度的需求，另一方

43、面需要参考我们使用本体的目的，所研究问题的特点。2.2 WordNet简介WordNet是由普林斯顿大学的George A. Miller组织开发的大型英语词典。其描述的对象包括compound（复合词）、phrasal verb（短语动词）、collocation（搭配词）、idiomatic phrase（成语）、word（单词），其中单词是最基本的单位。这些描述对象被分为名词、动词、形容词和副词，它们各自被组织成一个同义词的网络，即上文中提到的树形结构，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也有各种关系连结。WordNet的名词部分是目前被开发的最完整的部分，名词的连接

44、关系就占了所有连接关系的80%。我们以名词为例，说明WordNet的组织方式。WordNet中最基础的语义关系是synonymy（同义关系）。Synset（同义词集合）构成了树形结构中的每个节点，也即一个概念。在名词树形结构的最顶层是11个基本类，比如“entity”、“event”等等。这11个基本类的下一层为25个基本类别：act,activity动作行为，food食物，possession所有物，animal,faunal动物；group,grouping团体，process过程，artifact人工产物，location位置；quantity,amout数量，attribute属性，m

45、otivation,motive动机，relation关系；body身体，natural_object自然物体，shape形状，cognition,knowledge认知，知识；natural_phenomenon自然现象，state状态，communication交流，person,human_being人类，substance物质，event,happening事件，plant,flora植物，time时间，feeling,emotion情感。简而言之，同义词构成同义词集合，同义词集合构成类，不同类又构成更上层的类。除了上文中提到的同义词关系，WordNet中还有许多其他关系来表示不同概念

46、间的关系。上下位关系：如果同义词集合A的所有特征被包含在同义词集合B的特征集中，而不是相反，那么B是A的下位概念（hyponym），反过来，A是B的上位概念（hypernym）。以“动物”和“狗”为例，“狗”包含了“动物”的所有特征，但“动物”并不具备“狗”的独有特征“狗拿耗子多管闲事儿”，因此“狗”是“动物”的子类，即下位关系，而“动物”是“狗”的父类，上位关系。整体部分关系（meronymy）：在WordNet中，包含了三种整体部分关系，A是B的组成部分；A是B的成员；A是B的构成材料。反义关系（antonymy）：两个词构成反义关系的最强烈的心理学暗示是，当给出一个词时，它的反义词通常就

47、是最容易联想到的词，比如给出“美丽”这个词时，最容易联想到的是“丑陋”。WordNet作为一个主要的通用本体，每一个词的定义都经过专家论证，可以为我们常见的英文词汇提供可靠的基本解释；其完善的树形组织结构利于语义的相似度比较，在现阶段的语义相似度研究中被广泛使用，本文也将使用WordNet作为本体。2.3 语义相似性、语义相关性和语义距离有了确定的本体，尤其是有了树形结构的本体，在本体内测量两个概念的相似度也就有了一种非常直观的方法测量两者的距离，距离越近越相似，反之相似度越低。但在这之前，我们还要讨论一下什么是语义相似性、语义相关性和语义距离，这三个词总是同时出现，甚至被经常混用，然而，它们

48、的意义并非完全一样，这里我们举例来说明。通过“柳条”这个词，我们很容易联想到“柳叶”，但“柳条”和“柳叶”相似吗？不相似，但“柳叶”是“柳条”的一部分，它们是相关的；那么什么和“柳条”相似呢？“绳子”、“电线”甚至“蛇”都可以。因此相似和相关是不同的。进一步的讲，我们可以将相似归类为相关，但反之却不能，因此，相关性是相较于相似性更广泛的定义。语义距离，简而言之就是两个概念的语义相距的距离。这是一个抽象的概念，但许多文献支持这样一种观点：语义距离可以用来表示概念相似性的反面，即距离越大，则相似性越小；同时，语义距离也可以用来表示相关性的反面，距离越大，则相关性越小。通过语义距离测量相似性一种直

49、观方法是网络距离模型，即以本体所在树形结构中两个概念的距离为基本指标来衡量概念的相似程度；另一种测量方法是信息理论模型，即通过两个概念的共有信息量来衡量概念的相似程度。后者显得更有说服性，因为前者让人联想到相关性，而不是相似性。上文我们已经举例说明，两者相关并不一定说明两者相似。2.4 本章小结作为目前语义测量的一种公认方法，本体成为了一个不可或缺的基础，因此在本章的第一部分我们简单介绍了什么是本体，本体的组成以及表示方法，本体的分类。旨在说明为什么用本体可以测量语义的相似性，如何构建本体，如何选择本体等。在第二部分，本文介绍了一种通用本体WordNet，简单描述了它的内容、结构特点，说明了它

50、作为通用本体的普适性，可操作性。当然，它也有局限性，即本身是一本英文词典，并不适用于中文或者其他语言。第三部分本文着重区分了语义相似性、语义相关性和语义距离三个概念之间的区别，旨在为后文语义相似性方法的测量做铺垫，以免读者对这三个概念混淆，影响对下文内容的理解。第三章基于WordNet的概念语义相似度算法3.1 基于WordNet的语义相似性算法综述如上文所述，目前基于WordNet的语义相似性算法总体上分为两类，一种直观方法是网络距离模型，即以本体所在树形结构中两个概念的距离为基本指标来衡量概念的相似程度；另一种测量方法是信息理论模型，即通过两个概念的共有信息量来衡量概念的相似程度。我们将

51、分别阐述两种方法的优缺点。3.1.1 网络距离模型由于WordNet本身的树形结构以及语义距离和语义相似度之间的关系，使得计算两个概念之间的相似度有一种非常直观的方法，即测量表示两个概念的节点在树种的距离节点A到B的最短路径。路径越短，A和B越相似。然而，这种测量方法存在一个问题，在计算最短路径的过程中每一条边得权重都是相同，都为1，这与实际情况是不相符的。一个简单的例子是，在WordNet中“dog”（狗）和“canine”（犬类）之间的距离是1，“canine”（犬类）和“tooth”（牙齿）之间的距离是1，很明显，前者的相似度高一些。这是因为“dog”处于树形结构的更底层，而tooth处

52、于树形结构的更高层，在距离相同的情况下，树形结构的越高层，概念越抽象，之间的差异越大，反之，树形结构的越底层，概念越具体，之间的差异越小。因此，我们应该对不同的边赋予不同的权值。为了解决这个问题，有人尝试给不同的边赋予权值，然而，手工赋值的办法显然是不可取的，应为大型本体中的概念实在太多，完成这一工程，无异于再建一座万里长城。那么能够自动赋值吗？有许多关于这方面的工作，大家主要考虑了一下因素：深度、边密度，节点之间的连接强度。所谓深度，就是节点在树中的深度；从图3-1我们可以看到，节点B所在区域边的个数大于节点C所在区图3-1 树形节点图域边的个数，即区域密度B大于区域密度C，则对应的BD边的

53、权值应当小于CF边的权值。父子节点之间的连接强度是基于这样一种认识，与一个节点相连的节点可能有许多个，它们根据不同的连接关系被连接在一起，这种连接关系越多，两个节点之间的连接越不稳定，因此对应边的权值变大，连接强度变小。简而言之，随着深度的加深，权值随之变小，概念间的距离变小；随着边的区域密度的增大，权值变小，概念间距离变小；随着父子节点连接强度的增大，权值变小，概念间距离变小。下面介绍了几种改进了的边距离测量方法。其中一种最简单的改进是找到概念c1和c2最短路径，并计算出c1,c2所在层级结构的最大深度，并且只考虑上位关系即is-a关系，得到相似度计算公式： (3-1)下面的方法给出了一种计

54、算语义距离的方法，我们知道，语义距离越大，相似度越小，因此，只需要适当变形就可以得到一种新的相似度计算方法： (3-2) (3-3)其中为到之间边的权重，r表示语义关系（is-a关系），r是r的反关系，maxr和minr分别表示语义关系r的可能的最大和最小权重，表示的语义关系类型为r的出度。（由于WordNet中的语义关系有许多种，这在上文中有所描述，这里只计算某种特定的语义关系，比如is-a关系）。另外一种计算概念相似度的公式考虑了c1和c2最近公共祖先c3在层级结构中的深度： (3-4)这里的N1是c1到c3的距离，N2是c2到c3的距离，N3是c3到根节点的距离。由公式4计算出的结果是无

55、法预知其取值范围的，因此，有人提出了一种将取之范围规约到0,1的方法，这种方法也同时考虑了最短路径和公共祖先： (3-5)3.1.2 信息理论模型信息理论模型是一种本体和语料库结合的方法。它的依据是，当两个概念之间的共享信息越多，两个概念越相似。那么，如何判定两个概念的共享信息量呢？首先，我们可以根据本体找到概念C1和C2的公共祖先C3，即它们的共有信息为C3，C3占它们所有信息量的比重是多少呢，如何量化它？这里就用到了语料库，我们通过计算C3在语料库中出现的概率P(C3)来衡量共有信息C3的数量，这样给出一种计算相似度的方法： (3-6)这里我们只考虑了共有信息量，有人提出忽略差异信息量是不

56、可取的，因为即使C1和C2的共有信息量很多，但也许它们的差异信息量更多，下面给出了一种考虑了差异信息量的计算方法，共享信息量越多，越相似，差异信息量越多，越不相似： (3-7)3.2 当前算法存在的问题在网络距离模型中，更多的考虑了is-a关系，而很少考虑其他关系，这种测量也更容易让人联想到相关性，而不是相似性；通过信息理论模型，我们可以很好的测量两个概念的相似性，但其对语料库的频繁访问使得算法的实用性不大；两个算法共同存在的问题是算法都是对称性的，即测量C1和C2的相似度值和测量C2，C1的相似度值所得结果是一样的，而实际情况是我们可以说“猎犬”是“狗”，但反过来却不行，两个结果完全不同。3

57、.3 一种新的概念语义相似度计算方法在3.1节的讨论中可以看到信息理论模型的一个严重缺点是需要频繁的访问语料库，那么有没有一种方式，可以采用信息理论模型，同时避免访问语料库？由于越抽象的概念出现的频率越高，其信息量越大，而在树形结构中，越抽象的概念在树中所处的层次越高，因此，越上层的概念赋予的权值越高。我们将本体中每一个概念进行量化，统一进行赋值，下图就是一个赋值后的树形结构图3-2：图3-2 赋值后的树形结构图每个节点的信息量跟它们的深度成反比，树的最大深度为3，因此顶层的信息量为3，依次向下逐个递减。信息理论模型的基础是，当两个概念之间的共享信息越多，两个概念越相似，这样我们可以重新定义上

58、文中提到的几个概念：深度、边密度，节点之间的连接强度。深度：随着深度的加深，子节点相对于父节点的变异越小，共有信息量越大，因此权值越小，距离越小，相似度越大；边密度：随着区域密度的增大，概念划分的粒度越细，概念间的差异越小，距离越小，相似度越大；连接强度：节点之间连接强度越大，节点之间的继承关系越明显，共有信息量越大，距离越小，相似度越大。这样概念C1，C2的共同祖先C3在树中的深度N3即为它们的共有信息量，而N1+N2则为两者表示的信息量之和，这样公式4同样适用于信息理论模型。 (3-4)然而，公式3-4它本身的缺点也是不容忽视的，公式本身并没有充分考虑边密度、连接强度、方向性等因素，因此，

59、本文给出了一个新的计算概念语义相似度的方法，它以共享信息为基础，综合考虑了深度、边密度、连接强度、方向性、取值范围等因素，同时避免了对语料库的频繁访问。计算方法如下： (3-8) (3-9) (3-10)其中、为经验参数，len(C)为节点C到根节点的距离，dist(a0,an)为节点a0到an的语义距离，stren(a1,a2)为父子节点之间的连接强度，C1为节点1的出度。3.4 算法分析我们知道，两个概念之间的语义距离和连接强度的取值是相反的，语义距离越大连接强度越低，为了将连接强度和语义距离结合，本文扩展了连接强度的概念。10式定义了连接强度的计算方法，即节点出度的倒数。也就是说，父子节

60、点之间的连接强度越大，取值越小，连接强度越小，取值越大。这样，就解决了为最短路径上每一条边赋权值的问题：任意两个节点a，b，找到它们的最短路径后，其路径长度为每条边的连接长度stren(a1,a2)，即9式给出的计算方法。这样，本文重新定义任意两个节点a，b的最短路径为任意两个节点a，b之间的连接强度stren（a，b）。利用连接强度，本文给出了计算相似度的方法8式。其中前半部分中为节点，的公共祖先到根节点的距离，即两者的共有信息量，为两者之间的连接强度，即差异信息量，因此为通过信息学理论计算出的相似度；后半部分是为了体现非对称性而编写的辅助函数。求，和求，的相似性时，的取值是不一样的。，

61、是区分相似度和非对称性的权重而设置的参数，需要根据实验数据不断修改。表3-1将本算法与上文提到的网络距离模型算法进行了比较。表3-1 网络距离模型与本文设计算法比较公式节点间距离边密度连接强度深度方向性3-1是否否是否3-3是是否是是3-4是否否是否3-5是否否是否3-8是是是是是从表3-1可以看出，本文设计算法在继承了现有算法优点的基础上，进一步可虑了方向性、连接强度等现有算法没有可虑的因素，进一步提高了算法的精确性。表3-2将本算法与上文提到的信息理论模型进行了比较表3-2 信息理论模型与本文设计算法比较公式共有信息量差异信息量访问语料库3-6是否是3-7是是是3-8是是否从表3-3中可以看出，本算法避免了对语料库的频繁访问，降低了算法的实现难度。但相对于网络距离模型，其复杂度显然是略高的，因此，在具体的实现中，可以根据应用的不同，在精度和效率之间进行取舍。比如，可以使公式3-8中的参数为零，这样就变成一个纯粹的信息理论模型，而不考虑方向性、连接强度等因素；而如果对、进行更精确的取值，计算精度提高的同时算法复杂度也将

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

软件工程毕业设计（论文）基于WORDNET的XML文档语义相似性计算方法

最新文档

相关资源

相关搜索