在大数据时代的今天,如何科学有效地利用数据是科学研究的重要问题。作为一名从事法律工作的法院工作者,我们经常会面对大量的司法数据,然而作为文科科班出身的我们,却往往疏于有效地利用司法数据进行统计分析问题。《戏说统计:文科生的量化方法》一书与那些充斥着高深莫测方程式的统计学教材相比,确是我们文科生学习、理解统计分析工具的捷径。
从该书书名部分的“戏说统计”,已彰显出作者的写作风格。所谓“戏说”,一是与统计学教材相比,该书采用札记的形式传递了作者对于统计分析或量化方法的教学心得;二是此处的“戏说”还有“游戏”之玩味,文中作者以SPSS统计分析软件为实例,运用虚拟数据对该软件进行各种模拟演练,有种智力游戏的趣味。仔细读毕,有以下收获:
一、量化与数据是统计分析的基础
量化的对象是某些个体某些属性的变化,同时,量化存在定类测量、定序测量、定距测量、定比测量四个层级,前三种测量层级中“定”只是标记而已。以定类测量举个例子,定类测量针对的是不同类型,如被告人是否适用缓刑、被告人的文化程度、温度的高低等等。总体而言,前三种层级并不能完全数字化,而第四层级的测量则可以完全数字化,即属性变化能够连续不断地用成倍计算的数字进行标记。测量层级不同意味着所使用数字的数学性质也不同,而测量等级则受到个体属性的可量化程度与实际需要及研究资源的制约。此外,作者在文中提出统计分析是科学实验的代用品,而定性研究是定量研究的基础。在书中第二章节以SPSS软件中的雇员数据库为例,对数据进行事例讲解,让读者对数据、数据库有经验性的感受。数据是对个体属性变化的测量结果信息,即一个数据代表某个个体的某种属性的信息。数据库则是数据的集合,是量化的成果,也是开展统计分析的基石。作者在文中将数据库比作“数据矿”,矿山只有开采出矿产才具有价值,同理数据库只有经过统计分析才能体现其研究价值。最后,作者建议做定量研究一定要有真正属于自己的数据库。
二、统计分析具有三个层次
该书从几何学的点、线、面、体的视角分别介绍了单变项分析、双变项分析、多变项分析三种统计分析工具。
第一层的单变项分析,作者以雇员数据库为例,运用样本量、平均值、标准差描述样本的正态分布,实现数据由点变成线的转变。同时,单变项分析不仅仅是对样本的简单描述,还要实现从样本到总体的跳跃,即从确定可知的样本统计描述跳向不可知的总体参数,从非黑即白的常识观念跳向万物皆可能的概率世界观,从确定性跳向不确定性。接着,作者引入个体属性、标准误差、概率标值的三个概念来介绍了正态分布的三个版本,即1.0版、2.0版、3.0版。作者正是通过三个版本的正态分布来实现单变项分析样本到总体的跳跃。最后,作者分享对正态分布的心得体会,即中庸世界观、概率思维方式以及平淡的人身哲学。
第二层的双变项分析即相关性分析,通过分析两个数据变量的相关性来实现数据由线到面的分析,相关性有强弱、显著之分。回归分析则是预设因果关系的相关分析,引入回归系数、判定系数及回归系数的显著度检验等概念后,重点讲授回归分析的使用方法。最后,与“无罪推定”的刑事审判原则相比较,介绍对显著度检验的检验原理,并提醒读者要务必大胆假设、小心求证、良心决断。
第三层的多变项分析,实现数据由面到体的过程,作者介绍了多元回归分析和因子分析、量表构建。其中,多元回归分析是指自变项至少两个以上的回归分析,解决的是“一果多因”的问题。多元回归分析的原理是通过设置干扰变量来判断自变量对因变量的净影响是否“显著”。而因子分析和量表构建就是通过相关分析与回归分析更准确地测量潜在的连续变项。
最后作者还指出对数回归分析就是将某事件发生概率转换为发生率,然后取发生率的对数进行回归分析。其中,对数回归分析中最主要的就是卡方值显著度检验。作者在文中采用通俗的语言介绍观察值、预期值、卡方值、自由度、最大似然估计等概念,并描述了卡方值检验的检验过程。
总而言之,作者对于上述内容的阐述没有运用数学方程式,但写作的语言风趣、通俗易懂,既有统计概念、原理的系统阐述,又运用SPSS软件对大量实例进行演练,还有对广大文科生使用统计分析工具的提醒和忠告。我认为对于初次接触统计学的文科生来说,不愧是一本“接地气”的统计学读物。