托福培训学校-环球托福[环球教育旗下品牌]

ETS官方:托福正态分布让考分结果大不同

2014-05-29 13:37| 来源:环球托福

摘要: 今天环球托福从某一相关于托福考试正太分布影响考试结果的帖子:ETS对正态分布的最新解释… ,里面有一句官方的对“正态分布”的解释:
上海托福培训官网
今天环球托福从某一相关于托福考试正太分布影响考试结果的帖子:ETS对正态分布的最新解释… ,里面有一句官方的对“正态分布”的解释:

ETS官方:托福考试分数不完全按回答正确数相关
 
ETS官方:考生的评分并不完全是按照回答对的题目的数量而决定,而是会根据所有考生在此题上的表现而进行相应的等值(Equiting)。因而有可能出现两人回答对的题目总数量一样,而所的分数不同的情况。

帖子最后,TFSATKS同学提出了这样一个问题:大家看法怎样?关键是怎么理解“进行相应的等值(Equiting)。

这个解释让我想到了心理测量上的一个基本概念——常态转化等距难度指数。可能因为大家平时接触的一些心理测验都不太专业,或者对心理测验的了解太少,所以觉得ETS的考试和心理测验相去甚远,但是事实上一套考试题目从某种意义上来说就是一套心理测验题。

一套托福试题就是一套心理测验
 
要明白这一点,我们首先要明白什么是心理评估。心理评估指运用多种手段,从各方面来获得信息,进而对某一心理现象作全面、系统和深入的客观描述;心理评估是对心理品质水平做出全面的鉴定,常需要采用一套方法,包括非正式的评估方法(如观察法)和正式的方法(如晤谈、评定量表、调查表、问卷和心理测验)来进行,心理测验包括在心理评估之中。

对某种语言的掌握无疑是一种心理现象,因此,对于测量英语掌握程度的托福考试事实上就是一套心理测验。

如何评价心理测验的质量
 
一套心理测验是否有效,质量是否很好,我们需要用效度、信度等指标来衡量;而评估测验中各项题目的质量,我们则使用区分度、难度等指标。

效度指的是一套测验是否能够有效测量我们要测量的心理量。比如说《比奈—西蒙智力量表》,这个量表有很多道题目,也有很多种测验方式,但是,通过这些题目和这些测验方式是否真的可以有效测量我们要测量的所谓的“智力”呢?同理,一套托福试题,是否真的可以通过那些题目和测验方式(阅读、听力、口语、写作),来有效衡量我们要测量的所谓的“对英语的掌握”这一心理量呢?

信度又称“可靠性或精确度”,指在同一条件下,对相同客观事物测量若干次,测量结果的相互符合程度或一致程度,说明数据的可靠性。


举个例子:
 
我们先完全随机从同一个正态整体中抽出两组(AB两组)学生,每组各100人(假设这样的样本容量已经足够大了),从而每组学生都可以代表学生这个正态总体。然后,让A组和B组都做同一套英语试题,结果A组平均分是90分,B组平均分是30分,且统计学差异显著。那么,我们应该相信哪个平均分最能代表学生这个正态总体对英语的掌握程度呢?当然两个都不能,因为这套英语试题本身就有问题,因为它“不可靠”;如果它“可靠”的话,两组学生的平均分应该相差不大,更不会有显著的统计学差异。对于托福试题也是一样。假设一套题目,一次学生测量之后的平均分是90,另外一次平均分是30,还有一次平均分是50,且都差异显著,那么这样的题目对于测量英语掌握程度来说就是不可靠的,必须被淘汰。

区分度就是一道题目对测试者的区分程度,和难度有关系,当难度为0.5的时候,区分度最大。具体的内容这里就不多说了,本篇主要要介绍的是难度

难度就是每道题目的难易程度,它用于评价每道题目的质量。难度和托福“惨案”的发生至关重要!

对于二分法记分的题目(既只有答对或答错两种可能的题目,如单选题),难度一般使用“通过率”来表示。

公式1:P = (R/N) * 100%

其中P为难度,N为全体受测人数,R为通过或答对此项目的人数。

对于非二分法记分的项目,如:可以给一部分分数的多选题,托福考试中阅读、听力部分的表格题,以及口语、写作,都不是简单地以对或错来记分的,而是允许对部分正确的反应给一定分数。这样的题目的难度需要使用如下公式计算:

公式2:P = (Mean/Max) * 100%

其中P为难度,Mean为全体受测者在该题上得的平均分数,Max为该题的满分。

然而,通过上述两种途径求得某题目的难度之后,并不能满足精确统计分析的需要,因为百分等级不具有相等单位,只是“顺序数据”,要想进行统计分析,必须将其提升为“等距数据”(这两种数据类型的概念,大家可以参看一下统计学的相关资料)。举个例子:A题难度为84%,B题的难度为16%,并不能说B题比A题难5.25倍,因为这里的难度是百分等级,不具有相等单位,无法像等距数据那样,进行统计分析。

如何将难度转换成可以进行统计分析的等距数据呢?我们需要使用Z分数(详细概念参考相关统计学书籍)。当参加考试人数很多的时候,测试者的分数分布将接近正态分布,因此,可以把难度P作为正态曲线下的面积,进而转换成以标准差σ为单位的等距数据,既Z分数。比如说A题难度为84%(P = 0.84),相应Z分数为-1σ;B题难度为16%,相应Z分数为+1σ。可是这样的Z分数也不便于处理,因为有小数点和正负号。