引文分析法共词分析法浅析

上传人:za****8 文档编号:23366373 上传时间:2021-06-08 格式:PPT 页数:41 大小:670.01KB
收藏 版权申诉 举报 下载
引文分析法共词分析法浅析_第1页
第1页 / 共41页
引文分析法共词分析法浅析_第2页
第2页 / 共41页
引文分析法共词分析法浅析_第3页
第3页 / 共41页
资源描述:

《引文分析法共词分析法浅析》由会员分享,可在线阅读,更多相关《引文分析法共词分析法浅析(41页珍藏版)》请在装配图网上搜索。

1、引文分析法、共词分析法浅析 于伟 科学研究前沿代表了科学发展的难点、热点以及发展趋势,从浩瀚的科技信息中探测研究前沿是科技创新的关键任务之一。因此,如何能够科学、准确地把握研究前沿已经成为科学研究人员及其管理者关注的焦点。 科学家提出各种方法与技术用于探测研究前沿,其中以利用引文分析和共词分析的研究最为常见。 引文分析 引文分析是利用各种数学、统计学以及逻辑方法,对科技期刊、论文、著作等各种分析对象的引用或被引用现象进行分析研究, 以便揭示其数量特征和内在规律, 达到评价、预测科学发展趋势的目的。近几年主要的关注研究对象或热点集中在“引文网络”、“自引与自引率”、“共引分析”、“影响因子”以及

2、“引文分析和统计中的误差”等方面。 在引文分析中, 引文网络得到了学者们的高重视。国外方面,将引文看作代表信赖的原型。他们认为在虚拟环境中,引文实际上代表了一种信赖。当A 引用B 的文章时,A认为B 的观点是支持性的,而B 引用的内容是被协商许可了的, 引用内容的同时也就影响了B 的思维。因此,引文网络系统可以被看成是信赖系统,引文索引则可以被看成是一个推荐系统推荐被引次数多的文章。引文网络 在引文网络中存在大量的同引和耦合。同引(或称同被引)是指两篇或两篇以上文献共同被之后的一篇或多篇文献引用,如图中5和6同时被之后的8和8 引用;引用它们的论文的多少,即同被引程度,称为同被引强度。耦合则是

3、指两篇文献共同引用了一篇或多篇文献,如图中2和4共同引用了1 ;耦合的文献之间总存在着这样或那样的联系,其联系的程度称为耦合强度。 引文网络的结构特点有: 引文网络是静态的,不可以在任何已有节点上增加新的代表引用的单向箭头,也不可以随意删除已有的代表引用的单向箭头,因为文献一经出版之后,它的参考文献就一成不变了; 引文网络中的引用是单向的,即只能是后期的文献引用前期的文献,而前期的文献不能反过来引用后期的文献; 引文网络中的引文不可以自引,引文不能自己引用自己,在引文分析中,自引主体只能是作者、期刊、学科、机构等; 引文网络中的引用是有固定时间的,即文献A引用文献B是有固定时间的,这个固定时间

4、正好是文献A 的发表时间,且文献A的发表时间必然在文献B之后,如图3中8和8 同时发表,故不存在8引用8 或8 引用8 ; 引文网络中引文间的引用呈现出主题集中,因为引文间引用的正式性和文献出版的质量控制,引文基本来自同一科学领域或关系紧密的领域。 常见的引文网络测度指标可以分为四类: 引文数量特征测度指标:引文数; 引文分布特征测度指标:平均引用数、自引数与自引率、被引次数与引用数的比值; 期刊(论文)影响力测度指标:被引用数、同引和耦合、期刊影响因子即年指标; 文献老化规律测度指标:衰减系数等 自引自引率 关于自引和自引率的研究是引文分析的内容之一。目前在国外研究最多的是关于期刊的自引和自

5、引率。一般认为, 期刊高自引有助于提升其影响因子; 也有研究人员研究去除期刊自引数对影响因子的影响,认为未去除影响因子的数据可以采用;还有研究显示期刊自引与自引率与影响因子的负相关性。 共引(co-citation) 就是两篇文献同时被其他文献引用。一般认为同被引用的文献在主题上具有或多或少的相似性, 因此同被引次数即共引强度可以测度文献在内容方面的相关度。由此, 通过一组文献之间的共引关系可以形成共引网络, 该网络内节点之间的远近便可以反映它们主题内容的亲疏关系。 共引分析方法始于small于1 9 7 3年提出的以文献为单位的共引分析, 但共引概念可以推广到与文献相关的各种特征对象上, 形

6、成各种类型的共引概念,如词的共引、文献共引、著者共引、期刊共引、主题共引和类的共引等。 共引的意义 自1 9 7 3 年被提出以来,共引分析已成为引文分析里面一种潜在多产的分析方法, 它不仅可以用来揭示科学结构的发展现状乃至变化情况, 还可以用来进行前沿分析、领域分析、科研评价等,进而为宏观科技决策提供先行支持, 为科技规划与评估提供基础 。 共引分析的一般过程 共引分析方法的一般过程可以概括为分析领域的确定分析对象的选择及共引矩阵的形成共引数据的处理聚类分析和多维标度结果分析和解释。方法的演进过程以分析过程中分析对象的选择和聚类方法中的参数修正为主。 选择对象 搜索数据 构建矩阵 聚类分析/

7、多维尺度分析/计算战略坐标 分析结果 几乎国内外所有学者都是按照统一的方法模式来进行共被引分析,即第一步构造共被引矩阵;第二步将该矩阵转化为相似系数矩阵,方法大多为皮尔逊相关系数法(PearsonS Correlation Coeficient);第三步是进行聚类(Cluster)和多维尺度分析(MDS)。这基本是大家默认的方法,在我国许多相关教材和相关论文中也多是采用这样的方法。 从2 0 0 3年开始,在科学计量学学者之间又引发了关于共被引分析方法的讨论。焦点主要集中在对皮尔逊相关系数是否适合应用到共被引分析这一问题,及共被引矩阵对角线如何取值这一问题的讨论。 McCain将其定为:默认值

8、,这也是影响最广泛的一种对角线确定方法;Ahlgren等认为应该使用自己与自己实际共被引次数;White则建议使用最大值来确定对角线的值。邱均平等认为根据共被引原理来看,从临近矩阵的定义来看,Wh ite的建议则更正确。共被引矩阵本来就是考察各对象之间亲疏关系的临近矩阵,只不过研究的目标选定了有特殊意义的作者、论文、期刊、学科等而已。从这点出发,我们自然而然的认为自己和自己的关系最亲近,所以应该是该作者与其他作者共被引频次中最高的。表达方式可以是最大值。但我们认为为了突出自己与自己的亲密关系,可以用最大值+l来凸显。所以我们大体倾向于White的提法,但可做适当的调整。 Pearsons只是一

9、种测度变量相似性的方法,是为了更好地发现变量之间的关系,而许多方法都可以取代它。我们认为Squared Euclidean distance是代替它的最好方法。理由如下: PearsonS相关系数矩阵自身的确存在问题。其不适合对有0 -模块的矩阵进行转化,虽然White等一再强调,共被引矩阵不应该存在0 -模块,并且给出了许多实例。但是我们认为这还是不具有普遍性,难免遇到0 -模块,尤其是在我国的研究者之间。在这里,我们再次肯定Ahlgren等提出的相似性测度的两个必要条件(注)是非常正确的。虽然是针对相似性测度提出,但是其原理对于非相似测度同样正确。我们用Squared Euclidean

10、distance测度方法是满足两个必要条件。根据Squared Euclidean distance公式可以看出即使在矩阵后加入0 -模块,D (X,Y)的值保持不变,说明SquaredEuclidean distance测度方法具有很好的稳定性。 注: 两个必要条件: (1 )对于相似性测度,变量A和变量B 的相关系数s(A,B)在加入0 -模块后不能减小;(2 )未加入0 -模块前,如果s(A, s(C,D),那么加入0 -模块后,这种关系也仍要保持。 返回上一张 注:在战略坐标中,X轴为向心度,表示领域间相互影响的强度,Y轴为密度,表示某一领域内部联系强度。以向心度和密度为参数绘制成的二

11、维坐标即为战略坐标,它可以概括地表现一个领域内亚领域的结构。 共引的发展趋势a. 综合多种分析方法。例如研究前沿和热点分析时,将共引分析结果和文献耦合、共词聚类、词频统计等方法的分析结果加以比较分析;揭示科学结构时,将共引分析与共词分析相结合,分析结果会更准确可靠。b. 不断融入新的技术。由最初借用多维尺度技术进行降维,到现在用PFNETS替代Pearson 相关系数,引入自组织映射( Self - Organization Map ,SOM) 技术、潜在语义索引(Latent Semantic Indexing ,LSI) 技术等。随着各种技术的发展,共引分析中不断融入其他学科新的技术,真可

12、谓吸众家之长为我所用。c. 扩展至网络结构研究。网络环境中,站点的链接关系类似于文献的引用关系,因此可以将共引分析方法移植到网络站点共引研究或称其为网页共链分析(WebColink Analysis ,WCA) ,反映网络本身的结构和网络中知识的结构。d. 不断探究共引分析中的一些细节问题。这其中包括相似性计算方法的优化,如何对合著者进行所有作者的共引 分析等。 影响因子 影响因子(Impact Factor,IF)是美国ISI(科学信息研究所)的JCR(期刊引证报告)中的一项数据。即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。这是一个国际上通行的期刊评价

13、指标。意义:该指标是相对统计值,可克服大小期刊由于载文量不同所带来的偏差。一般来说,影响因子越大,其学术影响力也越大。 附:IF值计算方法(以1 9 9 2年为例)A1 9 9 2年的全部引文(指定数据库中的记录)B1 9 9 2年某期刊发表在1 9 9 0和1 9 9 1的论文的被引次数C某期刊1 9 9 0 和1 9 9 1 年发表的全部论文的总和 D(期刊1 9 9 2的影响因子)B/C 例如,某期刊2 0 0 5年影响因子的计算 1 .本刊2 0 0 4年的文章在2 0 0 5年的被引次数: 4 8 本刊2 0 0 4年的发文量: 1 8 7 2 .本刊2 0 0 3年的文章在2 0

14、0 5年的被引次数: 1 2 8 本刊2 0 0 3年的发文量: 1 5 4 3 .本刊2 0 0 3 -2 0 0 4的文章在2 0 0 5年的被引次数总计 : 1 7 6 4 .本刊2 0 0 3 -2 0 0 4年的发文量总计: 3 4 1 5 .本刊2 0 0 5年的影响因子:0 .5 1 6 1 = 1 7 63 4 1 引文分析和统计中的误差 引文分析以其独特的科学评价功能而备受推崇,然而随着应用的深化,越来越多的人开始对引文分析的有效性与可靠性提出质疑。因为无论是引文分析的对象,还是引文分析的方法本身,都存在一些虚假和错误的成份。虽然不是很热门,但针对引文分析和统计误差的研究一直

15、伴随着SCI 的成长历程。 尽管专论相对而言不是很多, 但在不少采用引文数据进行研究工作的文献中多少都存在对引文分析中缺陷和错误的分析和研究, 很多文献也以善意的提醒或者警示来告知读者要谨慎地使用引文数据。目前, 国内对于引文虚假和误差讨论最多的当属伪引和漏引。 共词分析法 共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。

16、共词分析就是以此为原理,将文献主题词作为分析对象,利用包容系数、聚类分析等多种统计分析方法,把众多分析对象之间错综复杂的共词网状关系简化为以数值、图形直观地表示出来的过程。 共词分析法的过程 1确定分析的问题 2确定分析单元 3高频词的选定 4共词分析中统计方法 5对共词结果的分析 一、确定分析的问题 利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域、学科的发展过程、特点以及领域或学科之间的关系等等。不同的问题有不同的分析过程,采用不同的数学计量方法。 二、确定分析单元 有学者选择文献中的主题词、关键词为共词分析的基本单元。在共词分析中借助数据库管理软件以及SPSS统计软件

17、进行识别统计,对计算机而言同义不同词的词在统计过程中,被看作两个完全不相关的词汇,对统计分析的结果产生很大干扰。因此,被分析的词汇最好是受控的、被统一标引的主题词。只有这样,共词分析方法利用文章中词语对的共现频次来反映包含在文章中的概念才能成立。 主题词是规范化的检索语言,它对文献中出现的同义词、近义词、多义词以及同一概念的不同书写形式等进行严格的控制和规范,使每个主题词都含义明确,以便准确检索,防止误检、漏检。如:白介素2、白细胞介素2、IL2、IL-2等表达同一概念的不同书写形式规范为“白细胞介素2 ”。 关键词是属于自然语言的范畴,未经规范化处理,也不受主题词表的控制。如:对于“白细胞介

18、素2 ”这一概念可有白介素2、白细胞介素2、IL2、IL-2等不同形式来表达。 主题词与关键词最大的区别就是主题词经过了规范化处理。 三、高频词的选定 为简化统计的过程及减少低频词对统计过程带来的干扰,通常共词分析选择高频主题词为分析的对象。共词分法对高频词数量的选择没有统一的见解,如果主题的范围过小,则不能如实反映学科知识点的构成;如果主题的范围选择过大,则给共词分析过程带来不必要的干拢。用域值表示高频词划分的频次值,高频词域值越高,高频词的数量越多。高频词阈值是被认定高频词的词频总和,占所有词频总和的比率。 高频词的确定主要有两种方法:一种是结合研究者的经验在选词个数和词频高度上平衡,该方

19、法具有一定的主观性;另一种是结合齐普夫第二定律辅助判定高频词的界限。 四、共词分析中统计方法 共词矩阵的计算是共词分析中的重要一步,在此基础上采用不同的统计学方法,揭示共词中的信息,常用的分析方法有:聚类法、关联法、词频法、突发词监测法等。 共词聚类分析法 借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。 共词关联分析法 关联规则是描述一个事物中物品之间同时出现的规律的知识模式,更确切地说,就是通过量化的数据描述物品A的出现对物品B的出现有多大的影响。共词关

20、联分析以此为原理,通过关联统计方法,揭示主题词间的依存关系,在这基础上可现实对文献知识的提取以及组织文献数据库的作用。在共词关联分析的过程,涉及到4个重要的概念:a.支持度(Support) b.可信度(Confidence) c.期望可信度(Expected Confidence)d.作用度(Lift)。 共词词频分析法 词频分析法是利用能够揭示或表达文献核心内容的关键主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法,是定性分析法的一种。该方法通过统计主题词(关键词)的频次排序,结合领域的科学知识,分析高频词所承载的科技内容,将主题进行相应的分类与组织,从

21、而揭示领域研究的范围与热点。词频分析法在文献学分析中很常用,在共词分析中,共词聚类与共词分频分析的相互结合,发挥各自优势,取长补短,做到定量与定性良好结合,有助于增强计量结果的可信度与准确性。 突发词监测法 它关注焦点词-相对增长率突然增长的词。突发词监测与高频词词频不同,前者主要是从关注词自身的发展变化出发,关注单个词发展的阶段性,而后者主要是对领域中各个词的增长势头进行比较。由于科技领域中的局部热点变化不一定会引起全领域的注意或者研究,但又是领域发展中不可缺少的部分,比如关于某学科的教育研究,不一定会引起全领域范围的讨论,但是它的研究本身也会不断发展。因此基于单个词的词频增长率变化更有可能涉及到领域局部热点的变化。突发词监测法更注重的是研究领域内,那些研究活跃、有潜在影响研究热点的因素,因此,突发词监测有助于发现推动学科(或主题)研究发展中的微观因素。 五、对共词结果的分析 共词分析过程的各种数学统计,是为了以更客观、更直观的方式反映主题间的关系,要深入揭示隐含在文献群的知识,必须结合相关学科的知识对统计的结果进行科学分析。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!