问卷调查中编码输入流程的计算机优化

上传人:1888****888 文档编号:37897486 上传时间:2021-11-05 格式:DOC 页数:16 大小:44.50KB
收藏 版权申诉 举报 下载
问卷调查中编码输入流程的计算机优化_第1页
第1页 / 共16页
问卷调查中编码输入流程的计算机优化_第2页
第2页 / 共16页
问卷调查中编码输入流程的计算机优化_第3页
第3页 / 共16页
资源描述:

《问卷调查中编码输入流程的计算机优化》由会员分享,可在线阅读,更多相关《问卷调查中编码输入流程的计算机优化(16页珍藏版)》请在装配图网上搜索。

1、问卷调查中编码输入流程的计算机优化简介:本文致力于分析在传统的问卷调查中数据编码、输入流程中的诸多低效率、错误高的处理方式,并以复旦大学浦东新区社会发展调查问卷为案例,研究如何改进数据编码、输入流程,在降低对登录员和输入员要求的前提下同时提高编码输入环节的质量和效率。并对比各种计算机辅助手段的优劣,找出计算机辅助优化的较佳方案。 数据的编码、输入是问卷调查中极其不起眼的一个环节,以至于几乎所有的社会研究方法的教材中都只有寥寥几页来介绍它的实施方法,而且彼此大同小异,以至于缺乏足够的操作性。但数据的编码输入却又是一个问卷调查中极其重要的环节,因为它是调查的结果向计算机的二进制数据转变的一个关键环

2、节如果处理不当,不但可能延长编码输入所需要的时间,而且有可能在这个环节上造成数据错误,降低调查的可信度和有效性。因此,保证高效率、低错误率的完成数据的编码和输入工作便是一个调查顺利完成的必要条件了。 然而,在很多从事问卷调查工作或研究的相关人士眼中,数据的编码和输入环节是一个机械的步骤,而不像诸如问卷设计、调查报告撰写等环节那样需要相当的知识积累,并且充满着艺术性。在理想的状态下,情况的确是如此,只有要足够的金钱和人力的投入,数据编码、输入的工作是可以在足够短的时间里毫无差错的完成的。但是在现实生活中,由于受到了经费和人力的限制,我们不可能以人海和钱海战术来提高效率、降低错误率。因此,在经费、

3、人力的局限条件下,如何在不增加大成本的投入的前提下通过优化编码输入流程的方法来提高效率、降低错误率便成为一个值得研究的问题了。在接下来,本文便将致力于通过计算机技术的利用来实现上述目的,并希望能够达到以下几点目标: 1.降低输入的错误率,提高输入效率。除了通过改善工作环境来提高编码、输入工作的正确率以外,本文同样希望能够通过分析研究,借助计算机技术在编码输入阶段避免错误的产生,同时在事后能够提供强大而且方便的纠错查找和校验手段。 2.降低对于登录员、输入员的要求。在一项问卷调查中,一般必须要对登录员、输入员进行时间不短的必要培训以使其能够按照调查的要求完成工作(对登录员还需要配以必要的编码手册

4、),而在要求严格的商业调查中,登录员甚至都需要通过相关的考核。而对登录员、输入员的高要求也就意味着整个问卷调查成本的提高。本文希望能够通过分析研究,借助计算机技术降低对于登录员、输入员的要求(理想目标是将登录员和输入员合而为一),缩短对于登录员、输入员的培训时间。 3.改善登录员、输入员的工作环境。编码及输入过程是一个极其枯燥的过程,长时间的编码、输入工作很容易导致相关工作人员的心理烦躁,进而影响编码、输入工作的速度和正确率。本文希望能够通过分析研究,借助计算机技术改善登录员、输入员的工作环境,进而提高工作速度和正确率。 4.提供多种数据格式输出的解决方案。在数据分析的阶段里,国内较多使用的统

5、计软件便有SPSS、SAS、STATA、MINITAB、QUANTUM等多种统计软件,如果能够借助相关的计算机技术输出尽可能多的数据格式,以方面之后的数据分析同样也是本文的目标之一。 传统的数据编码、输入环节 正如本文开头所述,在国内的诸多社会研究方法教材中,对于数据编码、输入环节的介绍大同小异,因此本文便引用高等教育出版社出版袁方主编的社会调查原理与方法一书中的相关章节来介绍传统的问卷调查数据的相关步骤。在袁方的书中,资料的电子计算机汇总大致分成四个步骤:编码、登陆、录入和程序编制。除了最后一个程序编制环节现在一般已经由事先编制完成的统计软件完成外,其他的三个环节还是在被应用在目前较多的问卷

6、调查中的。对于这三个环节,袁方是这样介绍的: (一)编码 编码是将问卷中的信息数字化,转换成统计软件和统计程序能够识别的数字,这项工作是一种信息代换的过程。编码工作主要是建立编码手册,编码手册纪录着每一个数字所表示的实际意义,它相当于打电报的密码手册。调查者要根据它将问卷调查资料转换成能够统计、计算的数字、输入计算机,然后再根据它将计算机整理出来的结果转换成我们能阅读的文字。 (二)登录 登录是将编好码的问卷资料过录到资料卡片上去,以便于将它们输入到计算机的磁带、软盘或硬盘上去。登录是一项简单工作,但要耐心细致,要保证资料全息转换不出差错。 (三)录入 录入是将登录在资料卡片上的数据录入到计算

7、机的存储设备(磁带、软盘、硬盘)上,其工作性质同登录相同。所不同的是登陆的操作是在资料卡片上进行,录入是在计算机的终端上进行。一般来说在完成了这项工作后原始资料就可以束之高阁了。只要有编码手册、资料卡片或磁带、磁盘就能再现原始资料。 对于上面的介绍,我们首先不在细节上分析整个流程的问题(这将是下面重要内容),光光是从大局来看我们便很容易就可以发现整个流程一个根本的问题没有充分的利用计算机。随着计算机软件硬件的不断发展,计算速度越来越快、界面越来越友好,计算机能够辅助我们干的事情也就越来越多了。可能是传统的数据编码输入过程中,计算机始终扮演着一个简单的输入工具的作用,而大量本来最合适计算机的高强

8、度机械工作却留给了登录员和输入员。在这样的工作分配下,编码和输入的效率是不可能有大幅度的提高,而人面对高强度机械工作必然会产生的状态下降情况也必然会影响编码和输入的效率。因此,在下面的分析部分中,在充分发现传统流程弊端的前提下重新定位计算机所应当扮演的角色,尽量让计算机分担高强度、机械工作,便成为重中之重。 传统方法的问题 按照袁方一书的定义,编码是一种信息代换的过程,也就是按照一定的规则将原始的信息映射成计算机可以接受的数字信息。虽然编码的定义相当简单,但是实际上在操作过程中却远远没有那么简单,经常会出现这样那样的问题,下边将结合具体的事例(如果不加说明,本文中所有的事例均取自复旦大学社会学

9、系浦东新区社会发展调查问卷)进行分析。 常见问题一:伪文字内容转换成数字选项的效率低下。在一份调查问卷中,除了少数的开放式文字题以外,实际上还有不少伪文字题出现。比如在问卷卡一中的第4题“文化程度”提供了8个选择项,第5题“您的职业”提供了12个选择项,属于标准的封闭式选择题。而问卷卡一中的第17题“您父亲的职业是_文化程度是_”表面上看上去是开放式的文字题,但实际上是和前面两题同类型的选择题,而且共享同样的选择项。只不过因为选择项占用过多的问卷幅面,基于节省问卷篇幅的考虑而是以文字题的形式表现。这些题目在访问员访问的时候应该参照前面填入相关的编号,但是由于访问员或者方法的问题,实际填入的往往

10、是文字。对于这些题首先要根据填写的内容在前两题中找出对应的选择项,然后再进行登陆。从问卷设计的角度来看,上述提到的处理方式的确可以起到缩短问卷篇幅,提高访问者回答的意愿,但是从编码上来看,却给登录员带来了额外的工作,要么将所有的选择项全部背出来,要么反复察看问卷前面的选择项,而前者可能因为记忆错误带来额外的编码错误,后者则必然因为反复察看延长编码的时间,降低编码的速度。 常见问题二:高位补零。在编码的过程中,我们一般使用的都是固定长度的编码表(栏),对于某一题所占用的编码长度都事先有所规定。如果本题填写内容没有使用到事先规定的编码长度,那么就需要在高位补零。如问卷卡一中的第题“出生年月:_年_

11、月”,本题一共占用第至第共四个编码列,分别是年两个,月两个。在处理月份的编码时,由于有的月份是一位数,有的月份是两位数,所以在处理一位数月份的时候就需要在高位补一个零。比如问卷填写的是月,那么在编码时就需要编码为。在实际的操作中来看,高位补零是一项执行起来效率比较低的工作。除了必须填写大量不表示任何信息的数字信息外,在登陆的过程中还需要随时留意在需要的地方补零,而这同样也会降低效率。而且如果登录员使用的是简单的编码表或者问卷边上的编码栏没有清楚的标明编码长度的话,登录员很容易忘记补零,使接下来的信息被编在错误的编码列中。 常见问题三:处理缺填选项。由于种种原因(如访问员不尽责任、被调查者因为隐

12、私问题拒绝回答),在调查问卷中往往会出现一些没有填写的调查项。对于这些缺填的选项,登陆工作同样需要进行。对于此部分工作,在袁方一书中有详细的规则介绍,这里就直接引用。“给无回答答案的编码最常用的是,对需要不指一个格的可以重复所给的数字(如或);给不知道答案的编码常为或,。对大多数问题上述方法是可行的,因为指派数字往往从开始,又很难超过,所以让无回答为,不知道为很方便,但对少数问题,和两者均可能是被回答的问题本身所需要的数字(如家庭中子女的数目),在这种情况下,无回答和不知道的编码必须是在经验上绝不会出现的数字(例如,;因为子女数目决不会有那么多)。这样往往在编码时要多增加个格,如问家庭的子女数

13、目,要占两格,如果回答有个孩子,在登陆时要写(高位空格补);无回答的编码为,不知道编码为。”而在实际的处理过程中,最麻烦的就是对于不同的题目缺填选项有不同的映射规则。比如问卷卡一中的第题“您或您的祖辈搬迁到浦东来居住已经_年”,本题编码列为共列,本题对于缺省项可以使用或者处理,因为既然是在浦东接受访问的浦东居民那么在浦东居住的年份必然不可能是年,而且从经验上来看浦东这块土地成型不过百年,居住的年份不可能为年,因为用和都可以表示缺填。但是问卷卡一的第题“如果您已结婚,那么您有几个子女?_个”,本题中可以用来作为缺填的选项,因为经验上目前家庭几乎不可能出现拥有个子女的情况,但是没有子女而需要用来表

14、示的情况却经常可见。又如问卷卡七第题,“您目前的月收入状况:()基本工资_元;()各种补贴_元;()奖金_元”,本题第三小题奖金一项共占用共三个编码列。在处理此题缺填情况的时候,一般就必须使用来表示。因为被访人很有可能没有任何月奖金收入,填写的的确是,在编码时需要用表示。而从经验上来看,一个人的奖金收入恰巧是元的可能性很小,因此可以用来表示缺填的情况。上面的三个例子便可以发现在实际的编码过程中如何处理缺填项是一件极其复杂的事情,编码人员必须随时警惕才能够在不同的调查项中使用不同的映射规则来正确的完成编码工作。 常见问题四:相倚问题的处理。按照袁方一书的说法,“在设计问题时,常常遇到这样的情况,

15、有的问题只适用于一部分被调查对象。而一个被调查者是否需要回答这一问题,常常依据它对于该问题前的另一个问题的回来来定我们通常把前一个问题叫做过滤性问题或筛选性问题,而把后一问题叫做相倚问题。”从某种程度上来说,对于相倚问题的处理实际上和映射规则五中处理缺填选项是大同小异的,因为相倚问题的过滤性问题必然带来大量漏填的问题,比如问卷卡四第42题X小题“您是否知道上海市政府制定的七不规范”?,如果你的选择是(1)知道,那么就需要回答下边的七道题目“您已经做到了哪几条?”,但如果你的选择是(2)知道一部分或者(3)不知道(虽然发生这种情况的机会很小,但的确会有发生的可能),那么刚才的七道题目就无需回答了

16、。而在登陆的时候就仍旧需要把这七道题目进行登陆。上文已经说过处理缺填选项有时候是一件相当麻烦的事情,而当遇到相倚问题的时候却不得不面对大量的缺填选项,处理的难度可见一斑,可想而知,在处理这部分内容的编码时,效率和正确率可想而知。 常见问题五:错输漏输数据。登录和输入是两个极其机械的环节,而且在输入所有的编码时,由于整个编码一般比较长(对于一些大型的调查更是如此,虽然很多大型调查将问卷分成了多个编码卡来处理,比如浦东新区社会发展调查问卷便将整个问卷分成了张编码卡,但即使这样每张卡的编码长度仍旧比较长,比如卡一的编码长度是,卡二的编码长度是,卡三的编码长度是,卡四的编码长度是,卡五的编码长度是,卡

17、六的编码长度是,卡七的编码长度是,卡八的编码长度是),因此在登录输入的环节中无论登录员输入员工作是多么的耐心细致,但是出现错误便是在所难免的。 以上便是笔者总结归纳的传统过程中的几个常见问题,同时总结了可能降低效率或者带来错误的地方。在目前绝大多数的问卷调查中,以上六条映射规则都是由人工来执行的,因此下面我们所要做的就是结合现有的计算机技术,对于计算机在编码过程中的作用重新定位,看看计算机在提高效率降低错误率上究竟可以做些什么。 计算机优化的思路 先来看问题一:文字内容转换成数字选项。对于登录员来说最大的困难便是必须记忆或者反复察看问卷前半部分以便知道所填写文字所对应的编码项。而这个过程完全可

18、以由计算机来代替,一来利用计算机强大的存储功能,只需要实现把所有的文字对应编码项全部实现输入电脑,计算机便可以立即而且是随时给出相关的信息,而不像登录员必须有一个漫长的记忆过程;二来由于计算机是在数据库中读取文字对应的编码项,因此几乎不可能出现错误发生的可能,而不像登录员很容易出现记忆错误而导致编码的错误。因此笔者认为,这个过程完全可以由计算机来代替,登录员只需要在计算机中选择需要的文字,然后由计算机配对进而输出对应的编码项。 接着再来看问题二:高位补零。人工处理的时候困难主要在于很容易忘记执行这条规则,造成编码长度不正确的问题。而且从这条映射规则出现的原因来看,只是为了保证计算机能够正确识别

19、信息而制定的由人适应电脑的规则。由人适应电脑的初衷本来违背了本文由计算机代替人工进行机械繁琐工作的原则,因此笔者认为与其保留这个步骤给登录员代来麻烦,不如索性废除这条映射规则。只需要能够告诉计算机问卷中每一道题目的内容已经输入完毕,由计算机自动处理进行下一题的输入,这样就不需要随时记住额外的输入大量的零,给登录员造成困惑。 然后再来看问题三:处理缺填选项。这条规则对于登录员而言是最为麻烦,因为必须随时面对不同的处理方案。但是从计算机处理的角度来看,其实记忆那么多的处理方案完全不必要由登录员来完成,完全可以交由计算机来完成,而登录员所需要做的只是告诉计算机本项缺填,至于缺填之后应该对应的编什么样

20、的码,那么就是计算机的工作了。 继续看问题四:相倚问题的处理。正如前面所说的,相倚问题的处理很大程度上就类似于处理大量的缺填规则。所以就像我们用计算机来处理缺省规则五的方案那样,具体的缺选项究竟应该编什么码肯定将继续由计算机来代劳。除此之外,计算机还有什么可以代劳的呢?我们可以发现,如果一道筛选问题带来的是跳过多道甚至大量的题目,登录员仍旧需要一道一道的告诉计算机这些题目均为缺填,这仍然是一件麻烦的事情。因此我们更希望计算机能够自动判断筛选问题,如果需要跳过大量题目的话,那么由计算机自动将所有跳过的选项都按照缺填的方法来处理,这样可以避免登录员的无效输入,有效的提高编码效率。 最后问题五:既然

21、输入时的错误是在所难免的,那么我们应当做的就应当是利用计算机把这个错误发生的可能降低到最小。首先,我们在输入的过程中就要避免输入错误。计算机应当能够一发现可能的输入错误立刻提示输入员,防患于未然。计算机不是万能的,它当然不可能完全的就在输入过程中发现错误所在,但是对于某些明显的输入错误,它还是有可能发现的。仍旧以浦东新区社会发展调查问卷为例,问卷卡一第题“您的性别:()男()女”,对应的编码列是第列。它可能的编码只是或者,如果出现、以外的编码,那么显然是出现了登录或者输入的错误。计算机对于这样的错误,通过事先设定的校验规则,完全是可以事先找出。其次,当输入完成后发现多输入或者少数入了数据之后,

22、如何能够快速的进行查找。对于查错,一般而言二分法或者黄金分割法都是用来处理数据查错较好解决方案(具体的实施方法请参见相关资料),但是要利用二分法或者黄金分割法来进行差错,有两个必要的前提:一、能够准确快速的定位任何一个编码列;二、快速的找出特定编码列对应的问卷答题项,以便两者进行对比确定是否出现错误。而在传统的登录输入过程中要做到这两点缺是相当困难,对于第一个前提,在编码表上固然可以增加竖向的列号,但是在输入到计算机时,一般采用的文本编辑软件都缺乏相应的编码列号;而第二点,则必须在知道编码列号之后再查找问卷以确定相应的题目,速度较慢。因此如何利用计算机来更好的解决这两个问题,便是我们下文所要仔

23、细解决的问题了 以上便是笔者对于计算机优化的简单分析,当然上面讨论的仍旧只停留在一个思路的阶段,至于具体怎样通过计算机来实现,并且是最好的实现,那便是本文后半部分的事情了。 常用的计算机优化方法的分析 对于上述的分析,相关的社会调查、市场调查人士多少早已有所认识,因此已经有了一些通过计算机优化的方法,方法的具体操作方法很多,不过如果从实现原理上来看,大致有种。而这三种计算机的优化方法有一个共同的特点:将编码、登录、输入的过程融为一体,登录员在脑中完成编码过程后便直接输入计算机,跳过登录和输入的过程。国内的一些调查研究书中都没有提到,但是在艾尔巴比的社会研究方法中提到了此种方法的可行性,“假使搜

24、集到的问卷资料已经整理的非常完备了,你们就可以直接将这些资料输入到电脑中,而不必要再用另外的编码表甚至是连页缘编码也不用。” 第一种:利用非固定字段长度的数据库(或者类似产品)。在很多小型的问卷调查中,我们会发现很多调查的问卷编码输入过程是利用EXCEL这样的无固定长度数据库产品来完成的,每一道题目占用EXCEL的一个表格列,登录员每输入完一道题目,按下TAB按钮,进入下一题的输入。这种输入方法的改进不大,主要是提高的查错的方便性。利用EXCEL的单元格标记和表格头,可以快速的进行查错。但是这种方法有一个致命的缺点,那就是带来了很多的额外工作必须利用TAB键来表明题目之间的分割,如果遇到题目众

25、多而每一个小题编码列教短的情况的话,那么增加的额外工作是很明显的。还是以浦东新区社会发展调查问卷为例,此问卷共有需要编码的题目289题(以问卷旁的编码列行数计算),总编码长度为585,如果采用传统的输入方法需要击键586次(585个编码数字+1个分行符表示问卷结束),而采用这种优化方法,总共需要击键874键(585个编码数字+1个分行符表示问卷结束+288个TAB分隔符号表示题目技术),比原来的输入方法多击键49.15%,差错便利性随之带来的输入内容冗长十分明显。经常容易造成在查错上节省的时间远远比不上多击键的时间,优化方法反而起不到优化的作用,因此一般除了小型调查外,较少采用这种优化方法。

26、第二种:利用固定字段长度的数据库(或者类似产品)。这种方法实际上是对上面一种优化方法的再次优化,针对额外需要输入的TAB分隔符进行了改进。至于改进方法就是不使用EXCEL这样的非固定字段长度的数据库(或者类似产品),而是使用诸如FOXBASE、FOXPRO这样的固定字段长度的数据库(或者类似产品)。只需要实现设定好每一题的编码长度,以后在编码输入的时候只要输入完相应的编码,系统便会自动跳到下一题的输入,免去了大量徒劳的TAB按键,提高了效率。不过这种方法同样只能够在时候差错上有一些优化,其他的优化作用几乎没有。 第三种:自编程序法。这种优化方法较少看到有人采用,但是去不能否认这是最完善的解决方

27、案。所谓自编程序法就是请专门的程序员编制出针对特定问卷的输入软件,在程序编制的过程中就把事先设想好的优化方法全部做到相应的软件中去。利用这样的软件进行输入优化程度是最高的,几乎可以完成上文中提到的所有的优化思路,在给输入工作带来极大便利的同时还可以大大提高准确性。但是,这种方法的优化程度高是以牺牲通用性为代价的,为每一份问卷的输入都必须要编写一个特定的程序,不但因此必须付出额外而且是高昂的编制费用,而且每换一份问卷就必须重新编写一次,可复用程度很低。而且如果需要诸如两遍输入校验或者网络协同输入等功能的时候,程序编制的难度会急剧增加,随之而来的就是费用的急剧增加。一般而言除非经费十分宽裕,否则不

28、会采用这种方法。 以上简单介绍了现在经常采用的三种优化方法,我们会发现他们虽然有优点,但是缺点更多。 但是我们从上述的三种方法里,可以大致的看出一个优化的思路来,一个理想的计算机优化方案应该具有以下几个特性: 1.所用软件的廉价性。如果需要额外指出大笔费用购置相应软件,这对于绝大多数调查来说是不可能的。所以我们希望解决方案中涉及的软件价格最好相对较低,甚至免费更好。 2.按题输入,同时自动处理题与题的间隔。也就是像上文说的优化方法二中的软件那样利用事先设定的题目编码长度就可以自动识别题与题的间隔。 3.输入时即提供基本的查错功能,能够处理诸如仅涉及(1)男(2)女的编码项中出现3或者0的情况

29、4.提供良好的编码提示。遇到诸如文字转化为相应编码项的题目,能够在登录员需要的时候弹出选择项供登录员选择。 5.对于相倚问题的自动跳过。 6.支持双输入,并提供完善的双输入数据库对查差错功能,将可能的输入错误降到最低。 理想优化方法实现的软件选择 针对问卷调查中数据输入的问题,目前已经由软件开发者开发了多款相应的数据输入专用软件。既然在上文中我们已经提出了作为一个优秀的数据输入软件的几点要求,那么下面就结合上述的几个要求,一一对它们进行比较分析,从中选择出最适合我们要求的软件来。 选择一:SPSS Data Entry。从这个软件的名称中我们就可以看出这个软件和我们常用的社会统计软件SPSS有

30、着千丝万缕的关系。SPSS Data Entry正是由同一个软件软件公司专门针对问卷设计、输入环节开发的专用软件,是一种快速、精确地输入数据的有力工具。包括以下功能:1, 问卷设计,同时建立数据库结构,数据有效性检验、字段间逻辑关系检验、条件跳转等。可处理多选题。2, 问卷录入,核对。在实际的使用过程中,不得不感叹它的强大功能,几乎可以完成我们上面谈到的所有输入优化方法,而且都完成的尽善尽美。即使将它称作最优秀的问卷输入软件也毫不过份,但是最为遗憾的就是,SPSS Data Entry是一个大型的商业软件,价格不菲,在国内尚没有看到公开的报价,虽然有代理公司代理销售,但是从其台湾95000新台

31、币(约合31000人民币)的售价来估算,它在国内的售价也绝对不是普通的研究者所能够承受的。高昂的价格使得它所带来的优势变得毫无意义,因此在这里我们不得不被迫放弃选择它作为编码输入计算机优化的实现软件。 选择二:Quantum。Quantum是一套综合统计软件,一共由个部分组成,分别是:quanqest:主要是设计问卷;quancept:CATI;quinput:数据录入(包含逻辑查错功能);quantum:程序编写(包含再查错功能);quanver:交叉分析功能,并与SPSS、SAS有交口,轻松得到SPSS格式数据。其中我们需要使用的就是它quinput的部分。和SPSS Data Entry

32、类似,quinput同样是一个优秀的输入优化方案,它的方便程度不输于SPSS Data Entry,国内很多的市场调查公司使用的都是这款软件。但是,Quantum的价格同样令我们感到遗憾,该软件采用软件狗加密,在市场上不出售,只提供出租(类似SAS),年租金在人民币8万元左右。这样的价格更不是我们所能够承受的,因此只能够忍痛割爱了。 选择三:EPI INFO2000。EPI INFO 2000是专门为流行病学调查所设计的一套综合统计软件。与上面的软件不同,它是CDC(美国疾病预防与控制中心)编制、为第三世界国家提供的免费软件,设计时充分考虑了不发达国家的国情(所以对系统的要求非常低)和疾病调查

33、数据的特点,能很方便的对数据进行储存、核对、连接,当然也可以进行各种常用的流行病学统计分析,是到研究现场收集数据、进行预分析的及好工具。该软件可以从http:/www.cdc.gov/epiinfo/下载得到,国内曾经流行过它之前的6.0版本,这里介绍的是最新的在WINDOWS下使用的2000版本。在EPI INFO2000中有一个十分好用的数据输入模块,在数据录入时,可执行如重复(REPEAT)、只读(READ ONLY)和必须(REQUIRED)等字段特点。合法和编码字段有下拉(dropdown)数值表。多行字段在输入文字时自动翻滚。纯文本字段翻滚到128个字符。是我们一个较好的选择。不过

34、在实际的使用过程中,笔者发现EPI INFO2000有两个不小的缺陷:1.由于是使用Visual Basic进行设计的,所以EPI INFO2000的执行速度较慢。而且BUG(错误不少),经常会无缘不顾报错,出现无法使用的情况。2.输入过程以牺牲效率为代价过于简单化了。使用过EPI INFO 2000输入的人都会觉得用它输入太简单了,就和我们平常在网上做的那种调查表单一样,填空题直接填如,选择题点击选择或者下拉框选择,即使没有受过培训也可以完成输入。简单固然好,但太简单了也有麻烦,那就是效率降低了。在以往的输入中,我们需要使用的仅仅只是键盘,而且一般都是0-9十个按键的小键盘,这对于提高速度有

35、很好的帮助。但是在EPI INFO 2000下,我们却还需要同时使用鼠标,速度下降便无可避免了(SPSS Data Entry在提供类似EPI INFO 2000表单输入的同时,还提供简洁的数据库输入不是没有道理的)。 选择四:EPI DATA。最然都是以EPI开头,但是EPI DATA和EPI INFO2000没有太大的关系,它是一群丹麦的程序开发员针对EPI INFO在输入方面的弊端开发出来的免费的专用输入软件,目前的最高版本是2.0。它可以实现EPI INFO2000在数据输入方面的所有功能,但是在输入的过程中因为采用的是类似数据库的输入方式,所以效率要高上不少。而且整个软件只有1.5M

36、大,运行速度十分快,使用起来相当顺手。如果和上文中的理想输入优化方法项比较,我们便会发现EPI DATA可以实现我们所有的优化理想,最令人称道的是,就是这么一个小软件同样能够实现双输入功能,大大提高了输入的正确率。要知道这个功能即使在EPI INFO2000中也是没有的(EPI INFO的之前版本有双输入的功能,但是不知道为什么新版本反而取消了)。就凭这一点,笔者就认为EPI DATA堪称是在考虑了价格因素之后综合性能最好的输入优化软件。有兴趣的读者可以下载了使用一下,它的下载地址是http:/www.epidata.dk/。 Epidata使用的简单介绍 既然上面笔者如此推崇Epidata,

37、那么在这里就做一个简单的介绍。利用Epidata进行输入工作是主要由三种文件所共同完成的:QES、REC、CHK。 先来介绍QES文件的制作,这是一个文本文件,记录了所有需要输入的问题和格式,有点类似于我们设计的问卷。这个文件是由一定格式组成的,这里不详细介绍,仅剖析一个简单的文件,具体的使用方法有兴趣的读者可以参看它的帮助文件。 EARL.QES V0 Number: V1 What is your name _ V2 What is the price #.# V3 What is your birthday? V4 What is your choice? # V5 Your choic

38、e is 1, please tell me your age # V6 Your choice is 9, please tell me your age # V7 Are you OK? 文件结束 首先需要说明的就是,QES文件要求每行一道题目,而且题目的开始第一个英文字母便是此题目对应的变量名,比如例子中的V0、V1等。然后就是题目,接着最后的是题目格式。Epidata提供的题目格式还是不少的,这里就例子中选择重要的介绍。 第一种:自动编号。就是自动编号格式的对应命令。Epidata碰到这种命令,便会自动赋予它一个编号,比如第一个输入的赋予1,第二个赋予2,以此类推。这样就可以省去了输入

39、问卷号的麻烦。 第二种:字符格式。字符格式是以“_”符号表示的,需要输入几个字符就使用几个“_”。比如第二题中共8个,当你输入了8个字符之后,Epidata便会自动跳到下一题中去。 第三种:数字格式:数字格式和字符格式差不多,不过是用“#”表示,而且当中寻去添加“.”表示小数点 第四种:日期格式:允许你输入日起,支持月/日/年和日/月/年两种格式。 第五种:布尔格式:允许你输入逻辑变量,可以是y或者n。 当我们编辑完QES文件之后,便可以利用Epidata把它编译成REC格式的数据库文件。REC文件是由Epidata直接操作的,无需我们编辑。 接下来要介绍的是CHK文件,Epidata的精华也

40、在里面,通过它我们可以实现很多输入中的查错索引等功能。 EARL.CHK LABELBLOCK LABEL label_v4 1 choice1 9 choice9 END END V2 RANGE 250 120 END V4 COMMENT LEGAL USE label_v4 JUMPS 1 v5 9 v6 END MUSTENTER END V5 AUTOJUMP v7 END 上面的就是一个CHK文件,简单的介绍一下它的妙用。 先来看LABEL label_v4这一行,这实际上就是一个迷你的编码手册,比如说choice1被编码成1,choice9被编码成9。我们在遇到伪文字题的时候这

41、个就有用武之地了,按下F9之后,便会呼出编码手册,录入员只需要选择便可以完成录入了。 再往下看RANGE 250 120,这是限定了V2这个变量的范围,如果输入的数据不在120到250的区间中,Epidata便会自动报错,提醒录入员。 JUMPS 1 v5 9 v6,这是一个跳转命令,如果V4输入的是1,那么自动跳转到V5一题去,如果输入的是9,那么便会跳到V6一题去。 MUSTENTER,这是强制输入的命令。如果录入员企图跳过这一题的话,Epidata便会自动报错。 AUTOJUMP v7这是一个无条件跳转命令。遇到它,无论输入的是什么,都会自动跳掉V7一题去,它和JUMPS命令的搭配便可以顺利的解决相倚问题的解决。 设置完上面三个文件,选择Enter Data便可以开始高效率低差错的输入数据了。 以上便是Epidata的简单介绍,Epidata还有很多强大的功能笔者在这里因为篇幅的限制只能略过了,有兴趣的读者可以自己研究

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!