信息资源管理实验报告

上传人:可乐 文档编号:23611846 上传时间:2021-06-10 格式:DOCX 页数:18 大小:58.89KB
收藏 版权申诉 举报 下载
信息资源管理实验报告_第1页
第1页 / 共18页
信息资源管理实验报告_第2页
第2页 / 共18页
信息资源管理实验报告_第3页
第3页 / 共18页
资源描述:

《信息资源管理实验报告》由会员分享,可在线阅读,更多相关《信息资源管理实验报告(18页珍藏版)》请在装配图网上搜索。

1、信息资源管理实验报告 精品文档,仅供参考信息资源管理实验报告 信息资源管理实验报告 目录 1 1 、实验目的 .2 2 2 、实验准备 .2 3 3 、布拉德福定律的验证 .2 3.1 布拉德福定律简介 .2 3.2 云计算期刊列表 .2 3.3 分区 .4 3.4 结果验证 .4 3.5 结果解释 .5 4 4 、洛特卡定律的验证 .5 4.1 洛特卡定律简介 .5 4.2 洛特卡分布曲线的绘制 .6 5 5 、普赖斯定律的验证 .8 51 普赖斯定律简介 .8 52 验证过程 .8 6 6 、文献资源的时间分布特征 .9 6.1.指数增长律 .9 6.1.1 普莱斯曲线 .7 6.1.2

2、生长曲线 .8 6.2.逐渐过时规律 .11 7 7 、齐夫定律的验证 .12 71 齐夫定律简介 .12 7.2.齐夫定律内容 .12 7.3 验证手段 .12 1 1 、实验目的 1、检验布拉德福定律,分别采用区域、图形表示法表示,并结合主题进行解释; 2、统计作者、作者单位,获取核心或高产作者以及核心机构,检验洛特卡定律和普赖斯定律; 3、绘制年度发文量曲线,获取文献资源的时间分布特征; 4、选择论文,通过分词软件进行分词,再画出词频分布曲线,验证 zipf 定律或zipf 修正定律,检验论文关键词是否为高频词,并进行解释。 2 2 、实验准备 选择主题:云计算 选择数据库:CNKI 中

3、国知网 3 3 、布拉德福定律的验证 3 31 .1 布拉德福定律简介 20 世纪 30 年代,英国著名文献信息学家布拉德福提出了有名的“布拉德福分散定律”(Bradfords law of scattering),简称布拉德福定律或布氏定律。该定律描述了文献分散和集中的经验定律,其主要内容是:如果将科学期刊按其刊载某个学科主题的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的“核心”部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成 1:a :a2 的关系(a1)。 3 32 .2 云计算期刊列表 云计算 序号 期刊名称 文献量 1 LEC

4、TURE NOTES IN COMPUTER SCIENCE 2187 2 电脑知识与技术 968 3 PROCEEDINGS OF THE SPIE THE INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING 952 4 PROCEEDINGS OF SPIE 836 5 通信世界 817 6 APPLIED MECHANICS AND MATERIALS 815 7 ARXIV 718 8 通讯世界 692 9 FUTURE GENERATION COMPUTER SYSTEMS THE INTERNATIONAL JOURNAL OF ESCIEN

5、CE 597 10 FUTURE GENERATION COMPUTER SYSTEMS 596 11 中国新通信 582 12 ASTRONOMY ASTROPHYSICS 578 13 中国信息化 571 14 PROCEDIA COMPUTER SCIENCE 554 15 INTERNATIONAL CONFERENCE ON CLOUD COMPUTING TECHNOLOGY AND SCIENCE 550 16 COMMUNICATIONS IN COMPUTER AND INFORMATION SCIENCE 545 17 ASTROPHYSICAL JOURNAL 542 1

6、8 JOURNAL OF GEOPHYSICAL RESEARCH ATMOSPHERES 518 19 计算机光盘软件与应用 502 20 网络安全技术与应用 495 21 IEEE INTERNATIONAL CONFERENCE ON CLOUD COMPUTING 484 22 IEEE ACCESS 465 23 ADVANCED MATERIALS RESEARCH 433 24 信息与电脑 431 25 数字技术与应用 415 26 IEEE INTERNATIONAL SYMPOSIUM ON GEOSCIENCE AND REMOTE SENSING IGARSS 405 2

7、7 信息通信 398 28 无线互联科技 388 29 信息系统工程 387 30 数字通信世界 378 31 JOURNAL OF PHYSICS CONFERENCE SERIES 374 32 PROCEEDINGS OF THE SPIE 366 33 计算机与网络 356 34 ADVANCES IN INTELLIGENT SYSTEMS AND COMPUTING 349 35 计算机科学 348 36 Information week: The magazine for information systems management 345 37 CONCURRENCY AND

8、COMPUTATION PRACTICE EXPERIENCE 343 38 电脑迷 335 39 电子世界 335 40 MONTHLY NOTICES OF THE ROYAL ASTRONOMICAL SOCIETY 332 41 CONCURRENCY AND COMPUTATION PRACTICE AND EXPERIENCE 322 42 IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS 317 43 JOURNAL OF SUPERCOMPUTING 315 44 信息安全与通信保密 309 表 表 1 1 期刊列表 3

9、 3 .3 分区 将选取的论文按其总数 23545 除以 3,得到平均数 235453=7848,计算得出核心区的期刊数为 7 种,论文数约为 7293 篇;相关区期刊数为 15 种,论文数约为 8271 篇;外围区期刊数为 22 种,论文数约为 7981 篇(详见表 3)。 其中核心区的期刊列表如下表所示: 序号 期刊名称 文献量 1 LECTURE NOTES IN COMPUTER SCIENCE 2187 2 电脑知识与技术 968 3 PROCEEDINGS OF THE SPIE THE INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING 9

10、52 4 PROCEEDINGS OF SPIE 836 5 通信世界 817 6 APPLIED MECHANICS AND MATERIALS 815 7 ARXIV 718 合计 7293 表 表 2 2 核心区期刊列表 3 3 .4 结果验证 (1)区域表示法: 分区 云计算 期刊数量 论文数量 a(核心区) 7 7293 b(相关区) 15 8271 c(外围区) 22 7981 表 表 3 3 “云计算”主题论文的布拉德福分布 根据期刊论文列表以及分区列表可得,三个区中的期刊数量有以下比例关系n1:n2:n3=7:15:221:2:4 (2)图形表示法: 3 3 .5 结果解释 各

11、学科专业文献除了密集地登载于本学科的专业期刊,即“核心期刊”外,还登载于大量本专业的边缘期刊,即“相关期刊”,以及更一般化的其他学科的期刊上。由于后两者期刊的分散,难以查找特定专业的论文。此外,二次文献在摘录某一专业论文的时候,往往注重学科影响较大的“核心类”期刊,而忽视了非核心类的相关期刊,造成大量论文的重复摘录,因此,任何学科的绝大多数专业文献都集中于少数的本专业期刊内,但同时也散布于其他的相关期刊中,这是文献离散性的体现。而文献的集中性主要是由于“马太效应”,或者说是成功产生成功的原则:一种期刊的文献量越大、质量越高,作者就越愿意将自己的文章刊登在这些期刊上,形成了一种堆加效应。但是由于

12、核心期刊发表文章的难度较大、各期刊文章数目众多,所以核心区、相关区、外围区的期刊数量才会在统计上呈现布拉德福所阐述的那种规律 4 4 、洛特卡定律的验证 4.1 洛特卡定律简介 洛特卡定律是由美国学者 A.J.洛特卡在 20 世纪 20 年代率先提出的描述科学生产率的经验规律,它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的 1/4;写三篇论文的作者数量约为写一篇论文作者数量的 1/9;写 N 篇论文的作者数量约为写一篇论文作者数量的 1/ n,而写一篇论文作者的数量约占所有作者数量的 60.79%。该平方反比定律可表示为: ( c 为常数,约为

13、60.79) 05000100001500020000250000 0.5 1 1.5 2R(N)lgn期刊累计数的对数布拉德福分散曲线 2 4.2 洛特卡分布曲线的绘制 (1)以“云计算”为主题的论文数和作者数对应关系: 具体数据如下表(表 4)所示: 论文数 作者数 1 569 2 267 3 128 4 64 5 10 6 9 核 心 高 产 作 者 7 4 8 5 9 2 10 2 11 1 12 1 13 1 14 1 16 1 21 1 22 1 31 1 表 表 4 4 论文作者对应关系 (2)以论文数 x 的对数为横轴,以作者数 Yx 的对数为纵轴作图,我们可以得到洛特卡分布曲

14、线如下图所示: 01002003004005006001 2 3 4 5 6 7 8 9 10 11 12 13 14 16 21 22 31论文数x(篇)作者数log Yx(个) (3)用最小二乘法计算拟合直线的斜率: x y log x log y log x * log y (log x)2 1 569 0 2.755112 0 0 2 267 0.301029996 2.426511 0.730452674 0.090619058 3 128 0.477121255 2.10721 1.005394665 0.227644692 4 64 0.602059991 1.80618 1.0

15、87428699 0.362476233 5 10 0.698970004 1 0.698970004 0.488559067 6 9 0.77815125 0.954243 0.742545002 0.605519368 7 4 0.84509804 0.60206 0.508799719 0.714190697 8 5 0.903089987 0.69897 0.631232812 0.815571525 9 2 0.954242509 0.30103 0.287255618 0.910578767 10 2 1 0.30103 0.301029996 1 11 1 1.041392685

16、 0 0 1.084498725 12 1 1.079181246 0 0 1.164632162 13 1 1.113943352 0 0 1.240869792 14 1 1.146128036 0 0 1.313609474 16 1 1.204119983 0 0 1.449904933 21 1 1.322219295 0 0 1.748263863 22 1 1.342422681 0 0 1.802098654 31 1 1.491361694 0 0 2.224159702 平均值 0.905585111 0.719574776 0.332950511 0.957955373

17、通过计算我们可以得出:斜率 k 值=-2.311477697,接近于洛特卡定律-2 的斜率值,由此我们验证了洛特卡定律与事实具有很好的吻合度。 核心作者 篇数 核心机构 篇数 陈臣 31 北京邮电大学 374 00.511.522.53log Yxlog x洛特卡分布曲线 马晓亭 22 南京邮电大学 191 张云勇 21 电子科技大学 164 龚强 16 西安电子科技大学 148 龚强 14 武汉大学 123 于炯 13 华南理工大学 113 房秉毅 12 华中科技大学 100 马建峰 11 吉林大学 99 陈俊 10 上海交通大学 97 王鹏 10 华北电力大学 97 陈清金 9 南京大学

18、91 王凤领 9 国防科技大学 84 葛世伦 8 北京交通大学 82 王汝传 8 北京工业大学 82 张少茹 8 东北大学 78 胡新平 8 哈尔滨工业大学 77 战非 8 武汉理工大学 76 杨庚 7 湖南大学 76 赵莉 7 清华大学 74 高能 7 重庆邮电大学 74 Euiin Choi 7 重庆大学 73 彭志平 6 合肥工业大学 71 李陶深 6 东南大学 65 邓仲华 6 中国科学技术大学 60 张云勇 6 胡志刚 6 吴吉义 6 马锡坤 6 潘郁 6 马洪江 6 表 表 5 5 核心作者及机构的分布 5 5、普赖斯定律的验证 5 5 1 1 普赖斯定律简介 普莱斯(Price)

19、是著名的科学家与科学史学家,他在其代表名著小科学,大科学一书中曾有如下的论述:“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根”。因此普赖斯定律也被俗称为核心生产者分布的“平方根定律”。 5 5 2 2 验证过程 由以“云计算”为主题的论文数和作者数的对应关系图表,我们可以得到以下信息: 作者数量统计 全部作者数 高产作者数 1068 30 由于 1068 的平方根约等于 32.68,与 30 很接近,所以普莱斯定律得到验证。 6 6、文献资源的时间分布特征 6.1.指数增长律 6.1 1.1 普莱斯曲线 6 61 .1.1.1 普莱斯曲线的描

20、述 普赖斯曲线(Places curve)是指揭示科学文献指数增长规律的曲线,是美国科技史学家普赖斯综合、分析了大量的统计资料,以科学文献量为纵轴,以历史年代为横轴,把各不同年代的科学文献量在坐标系中逐点描绘出来,通过平滑方法所得出的一条曲线。它近似地表征了科学文献随时间增长的规律,即科学文献量的增长与时间成指数函数关系(在普通直角坐标中呈指数曲线,在单对数坐标系中呈一直线),其数学公式表示为: btae t F = ) ( F(t)表示 t 时刻的文献量,a 为统计初始时刻的文献量,b 是时间常数。 6 62 .1.1.2 验证手段 第一步:统计 2007 至 2011 年文献发表量,绘制散

21、点图。 第二步:利用表格工具选择指数趋势拟合,得到对应拟合的普莱斯函数 te t F5232 .13556 .6 ) ( = y = 6.3556e 1.5232x020004000600080001000012000140000 1 2 3 4 5 6普赖斯曲线拟合图 6 6.1 12 .2 生长曲线 6 61 .1.2.1 生长曲线描述 文献信息量的增长更趋近于生物的生长曲线,最开始时信息增长速度很快,符合指数增长规律;当文献信息量增至最大值一半时,增长速率开始变慢;随着时间推移,增长速度越来越慢,最终增长的极限为 k 值。数学方程为: ) 1 /( ) (kbtae k t F-+ =、

22、其中,F(t)为文献量,是时间 t 的函数,k 表示文献增长的最大值。 6 62 .1.2.2 验证手段 第一步:收集相关文献信息,统计 2007 至今年度发文量并绘制年度发文量曲线。 第二步:比对生长曲线和绘制的年度发文量曲线。 一般情况下,学科文献在不同时期的增长态势有所不同。学科处于起步阶段时,文献量呈指数增长,这个时期的文献寿命较短,如图中起点至红色数据点之间所示;在学科相对成熟阶段,文献指数增长率逐渐变小,曲线渐变平缓,这个时期的文献寿命相对变长,如图中红色数据点所示,当文献数量增加到约 k/2(8901/2)时,曲线开始变缓,增长速率放慢;最终学科文献将会进入一个稳定时期,如图中红

23、色数据点至终点之间所示,当文献数量增加到最大值 k(8901)时,不再增长,甚至在之后的几年内有所下降。 附:年度发文量数据图表(单位:篇) 2007 9 2008 386 2009 1238 2010 3159 2011 6387 2012 7496 938612383159K/2638774967960872389018409759780060100020003000400050006000700080009000100002,006 2,008 2,010 2,012 2,014 2,016 2,018 2,020年度发文量曲线 2013 7960 2014 8723 2015 8901

24、 2016 8409 2017 7597 2018 8006(预测) 6.2.逐渐过时规律 6 61 .2.1 文献老化的描述 科技文献随着其年龄的增长,其内容日益变得陈旧过时,失去了作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利用的过程。科学文献老化既是一种客观的社会现象,又是一个复杂的动态过程。文献老化速度一般用半衰期进行衡量,引用(引文)半衰期被定义为某期刊或学科现时引用的全部文献(即参考文献)中,较新的一半是在多长时间内发表的”。 6 62 .2.2 验证手段 为研究验证文件老化规律,我们选取了 2009 年发表的云计算:系统实例与研究现状,被引用次数 2609 次,知网

25、被引用记录 1211 条。 第一步:以文献现在正被引用次数为纵轴,以文献出版年龄为横轴,绘制曲线。 第二步:对照文献信息老化曲线分析所绘曲线。 已知文献信息老化曲线方程:atke t C-= ) ( 其中,k 是常数,随学科的不同而不同;a 为老化率,C(t)表示发表了 t 年的文献的被引次数。显然,文献自 2014 年以后的走势符合文献信息老化曲线。 具体数据和根据每年引用次数绘制的折线图如下图所示: 其中:文章发表于 2009 年末,所以 2009 年被引用次数并不高。2010 年才算是云计算正式在中国落脚的第一年,所以 2010 和 2011 年被引用频次上升较快但起点不高。 05010

26、01502002502009 2010 2011 2012 2013 2014 2015 2016 2017 2018文献老化 7 7、齐夫定律的验证 7 7 1 1 齐夫定律简介 齐夫定律是美国哈佛大学教授齐夫(G.K.Zipf)在 1935 年对文献词频规律的研究得出的,他认为把一篇较长的文章中每个词出现的频次按递减的顺序排列,其数量关系特征呈双曲线分布。该定律是计量学的基本定律,广泛应用于情报检索用词表的编制和情报检索系统中文档结构的设计。 7.2.齐夫定律内容 将一篇 5000 字以上的文章中按每个词出现的频次按逐渐递减的顺序排列起来,用自然数依次给这些词编号,出现频次最高的为 1 级

27、,其次 2 级,再次 3级.依次下去直到 D 级,用 r 表示词等级序号,f 表示某词在文章中出现的频次,则有: fr=C(C 为常数) 7.3 3 验证手段 第一步:寻找莫言的红树林和云计算英文论文A Berkeley View of Cloud Computing,利用 jieba 包用 python 进行分词得出词频表。 第二步:利用已得到的词频表绘制散点图。 第三步:利用表格工具对散点进行曲线拟合,验证论文关键词是否是高频词汇,并用 python 制作词云。 7 71 .3.1 对红树林的分析 附红树林部分词频表和词云: 050100150200250300350400珍珠大虎马叔什么

28、你们自己爸爸地说知道不是女人然后感到青面怎么好像鸭子就是市长二虎运动林岚一样两个地上数量词汇红树林词频分析 通过拟合的曲线和词频可以看出虽然不是完全符合齐夫定律,但是如果除去少数只出现了一两次的词语将近一半的文本完全符合齐夫定律。例如第 2 高频词频率我们大约就是珍珠的 1/2。 7 72 .3.2 对 A Berkeley View of Cloud Computing 的分析 附部分词频表: 02004006008001000theofacloudforthatonitarewebythiswithservicestoragethanatusershaveamazonapplicationsproviderswouldbutthey数量词汇A Berkeley View of Cloud Computing 通过拟合曲线和词频分布来看基本上也是符合齐夫定律呈双曲线分布。并且对于这篇论文来说:KEYWORDS: Cloud Computing, Utility Computing, Internet Datacenters, Distributed System Economics。除去词频表的一些冠词(像 the,a 在实际分析没有具体意义)论文的关键词也都是高频词汇。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!