统计新论
・!・
复选题的!\"!!数据编码技巧分析
文/余益兵
摘要:文章简要介绍了运用SPSS统计软件对社会科学问卷调查中复选题的数据进行编码的三种技巧:二分编码法、组合编码法和随机编码法,并对各自的优势和不足及适用条件进行分析。最后,结合SPSS11.5软件的统计界面介绍了复选集定义中的步骤和注意事项。
复选题是社会科学领域中调查问卷的一种常见问题形式,也是SPSS统计软件经常需要处理的任务之一。所谓复选题(Multipleresponse),也称多项选择题(Multiplechoice),即题目的答案不止一个,答案的选项可以根据研究需要多重选择。它对于广泛搜集被调查对象的态度倾向、探索不同人群的态度组合以及为进一步编制心理量表均有重要的作用。由于被调查者的态度千差万别,组合类型更是多样,如何精确、有效地获得各选项及其组合的选择信息成为许多SPSS软件新手面临的一个难题。一般来说,建立程序文件(example.sps)和数据文件(如example.txt)是原始数据录入和数据处理之前的两个预备环节,尤其是对于较大数量的数据处理更显得非常必要。程序文件规定了SPSS系统如何读取数据文件,它可以定义原始数据的相关属性(如变量标签、变量值、数据类型、所占栏位等),其中变量值和数据栏位是两项最重要的内容;数据文件则按照程序文件规定的格式记载了调查问卷的原始数据,二者密切联系共同构成了数据编码的关键环节。数据编码科学性与否不仅制约着原始数据的录入速度和准确性,而且也影响着后期统计分析手段的选择。本文结合自己长期运用SPSS统计软件从事数据处理的经验,对调查问卷中复选题的编码技巧作一简要归纳,并结合软件界面介绍复选集意义的基本步骤,希望对大家有所帮助。
一、技巧归纳分析
技巧1:二分变量编码法
也就是将复选题的多个选项分别当作独立的变量来看待,根据选项的个数分别定义为若干个子变量。对“1”“0”于每一选项的赋值,选定义为。如:,不选为
1、你认为统计软件SPSS10.0的优点有:(ace)a.功能强大c.帮助详尽e.结果输出美观
b.界面友好d.文件兼容性好f.安装智能化
“0”“1”不选的规本例中的选择答案为:ace,按照选
则,则a-f六个子变量s1a、s1b、s1c、s1d、s1e、s1f的值分别为:1、0、1、0、1、0。因此,程序文件example.sps可以编写为:
datalistfile=’c:\\...\\example.txt’/s1a1s1b2s1c3
s1d4s1e5s1f6.
variablelabels1a’(第1题a选项)’/s1b’(第1题b选项)’/s1c’(第1题c选项)’/s1d’(第1题d选项)’/s1e’(第1题e选项)’/s1f’(第1题f选项)’.valuelabels1atos1f1’已选’0’未选’.Execute.
相应地,数据文件example.txt的格式为:101010
・%・统计教育
!\"\"#年第$期
......
这种编码优点在于:(1)各选项相对独立,编码相对简单,也较为简易;(2)尽管不同被调查者的选择各有差别,但数据文件的每条记录的总栏位数相同(如本例均为6位),因而便于检查数据是否录入错误。但也存在明显的弊端,它不仅会增加数据编码和录入的工作量,而且固定式的数据录入方式严格要求子变量的栏位与其相应的值一一对应,否则容易造成数据整体错位。总之,这种编码方式比较适合于对被调查者态度差别很大的问题作探索性研究时采用。
技巧2:组合编码法
这种方法就是预先确定全部选项所有可能的组合类型,每种类型定义为一个子变量。如果本例的要求改成选出“最主要的三大优点”,理论上就可以产生20种组合类型,每种组合类型可以分别定义为1,2,3,...,20。数据录入时只要识别被调查者的反应组合属于哪种类型即可录入相应代码。
这种方法只要定义一个变量即可。它的优势除了保证各条记录的栏位相同便于检查之外,就是减少了数据容量,提高录入速度,而且用单选题的编码方式用于复选题的数据编码,也必然增加了可选择的统计分析手段。但也存在着因备选项增加而造成的组合类型多样化、类型识别困难的弊端。因此,这种方法适合于备选项不多,组合类型较少的情况下采用,尤其当我们只需要关心其中的几种典型组合的意义而较少关心具体选项的选择率或其他组合类型没有明显的研究价值时更显优势。
技巧3:随机编码法
当上述方法都显得不太方便时也可以采取随机编码的方式,不考虑组合类型也无须定义太多的子变量,而是将每个选项依次编码录入到数据文件中。如在本例“最主要的优点(不超过三项)”中要求选出时,只要定义三个子变量即可,每个备选项可分别定义为1-6(对选“0”“0”择不足三项的记录末位补即可,在分析时不予计数而已)。这样本例中的程序文件example.sps就可以编写为:
datalistfile=’c:\\...\\example.txt’/s111s122s133.variablelabels11’(第1题选择1)’/s12’(第1题选择
2)’/s13’(第1题选择3)’.
valuelabels21tos231’功能强大’2化’0’不满三项’.Execute.
如果两位调查者的答案是分别是ace和bd,那么,相应的数据文件example.txt的格式为:
’界面友好’3’帮
135......
可见,这种方法同时吸收了上述两种方法的优点,减少了需要定义的子变量的个数和数据长度,进一步提高了数据录入的效率,还保证了每条记录的栏位长度相同。但是最大的问题在于,它对各种选择的组合类型的“迫选法”信息不太敏感。这种方法在问卷采用进行回答而对组合类型信息要求不高时使用较为合适。
需要说明的是,这里所举的例子都是为了说明三种基本技巧而设计的典型案例。在实际研究中的情况可能要复杂得多,但只要掌握了三种编码技巧的精髓和适合条件,根据具体研究的需要作些调整即可解决问题。一般来说,数据编码总的原则是:最大限度提供研究所需信息、最大限度减小数据容量、最大可能提高数据录入的准确性和可检测性。
二、基本应用方法
由于组合编码法相当于单选题的编码方式,而对于各个选项的频次信息通过简单的描述性统计即可获得。这里主要介绍一下二分编码法和随机编码法在定义复选题集(MultipleResponseSets)时的基本步骤和方法如下:
通过Statistic/MultipleResponse/DefineSets/进入“复选集定义”(SetDefinition)框内的子变对话框。首先将“变量题集”(VariablesinSet),如:s1a,s1b,......量选入,“变量编码”(VariablesAres1f或s11,s12,s13。其次,在
“二分变量”CodesAs)框内,若采用二分编码法,则选择
“计数值”(Dichotomies)项,并在(CountedValue)框内填入需要计数的值(如本例为1,代表已选,是需要计数的值);若采用随机编码法,则选“分类变量”(Categories)“范围”(Rang)起止框中填入需要计数的起止数项,并在
“集字(如本例为1-6,0代表未选,不予计数)。再次,在“集变量标签”(Name)和(Label)中填入相应内变量名”
容(本例分别为:a1,第一题,可以省略)。最后,将定义完“变量集”“多选集”(MultipleResponsesets)成的填加到“$\"(如:$a1)。中,此时变量集名前自动添加了集符号这样就可以通过Statistic/MultipleResponse/Frequencies...和Statistic/MultipleResponse/Crosstabs...两项功能进一步获得复选项的频次和列联表信息。
(作者单位:安徽师范大学心理系)
助详尽’4’文件兼容性好’5’结果输出美观’6’安装智能
因篇幅问题不能全部显示,请点此查看更多更全内容