首页 >> 教育学 >> 教育心理学
研究生入学考试写作评分的概化理论研究与多面Rasch分析
2015年05月07日 16:46 来源:《心理学探新》2014年第20145期 作者:关丹丹 字号

内容摘要:为了评价和改进硕士研究生入学考试一般能力测试的写作评分,研究者采用概化理论和多面Rasch分析对113位考生的写作样本的评分误差来源、评分信度等进行了探讨。概化理论研究显示,评分者和题目对评分准确性影响不大,以两道写作题的考试设计而言,评分者为2人即可保证评分信度在0.75以上。多面Rasch分析显示,评分者宽严度的估计值及其误差均在可接受的范围内,评分者之间在宽严度上不存在显著差异,且评分者自身在评分时总体上比较稳定。但个别评分者在特定考生特定题目上表现出特殊偏向。概化理论和多面Rasch分析丰富了写作评分研究的量化指标,证实了硕士研究生入学考试一般能力测试的写作评分具有较高的信度。

关键词:写作;评分信度;概化理论;多面Rasch分析

作者简介:

  作者简介:关丹丹(E-mail:guandd@mail.neea.edu.cn),教育部考试中心(北京 100084)。

  内容提要:为了评价和改进硕士研究生入学考试一般能力测试的写作评分,研究者采用概化理论和多面Rasch分析对113位考生的写作样本的评分误差来源、评分信度等进行了探讨。概化理论研究显示,评分者和题目对评分准确性影响不大,以两道写作题的考试设计而言,评分者为2人即可保证评分信度在0.75以上。多面Rasch分析显示,评分者宽严度的估计值及其误差均在可接受的范围内,评分者之间在宽严度上不存在显著差异,且评分者自身在评分时总体上比较稳定。但个别评分者在特定考生特定题目上表现出特殊偏向。概化理论和多面Rasch分析丰富了写作评分研究的量化指标,证实了硕士研究生入学考试一般能力测试的写作评分具有较高的信度。

  关 键 词:写作 评分信度 概化理论 多面Rasch分析

  标题注释:基金项目:全国教育科学“十一五”规划2009年度教育部重点课题(GFA097020)。

  1 引言

  1.1 背景

  写作评分质量一直是心理与教育测量领域研究的重要组成部分。写作评分的早期研究多采用经典测量理论(CTT),主要关注评分主体即评分者的一致性。随着研究者对评分误差来源的深入认识,以及测量理论和计算机技术的发展,近些年,开始越来越多地关注评分标准的科学性、评分者的数量、试题的形式,以及上述因素的交互作用等对评分误差的影响。这些误差来源使用传统的经典测量理论无法有效评估,概化理论(GT)和多面Rasch测量模型(MFRM)则在不同程度上解决了此类问题,成为当前探讨写作评分误差的主要手段(Engelhard,1992;刘远我,张厚粲,1998;刘红云等,2010)。

  研究者欲探讨硕士研究生入学考试一般能力测试中写作的评分效果。硕士研究生入学考试一般能力测试的考查内容包括数学基础、言语理解与推理、写作三部分,主要根据大学毕业生的基础知识和能力水平,考查申请者在高级阶段从事专业研究的一般能力和潜在能力,不涉及任何专业的特殊要求(陈睿,2012)。该测试除写作外全部为客观题。因此,提高写作评分的准确性和一致性对提升该项考试的信度和效度至关重要。测试的写作部分包括两个任务:写作1要求考生分析所给篇章段落存在的缺陷与漏洞,并评述论证的有效性;写作2为一篇论说文。为了减小评分误差,两篇写作均采用0~6分量表进行评分(关丹丹等,2011)。

  1.2 概化理论

  概化理论(Generalizability Theory,简称GT)是一种把测量误差作为模型参数来处理的测量理论(Brennan,2001)。它不仅保留了经典测量理论中控制误差的标准化技术,而且发展了把误差控制与决策需要或测量结果的概括程度相结合的理论和方法(杨志明,张雷,2003)。概化理论对测量目标和测量侧面进行了区分,判别和分析不同侧面对分数的不同影响。概化理论研究通常包括G研究(generalizability study)和D研究(decision study)两个阶段:G研究的任务是在观测全域上尽可能地“挖掘”出研究设计中各种潜在的测量误差来源,并估计这些误差来源的方差分量;D研究则使用概化研究中得出的方差分量,计算概化全域上的概化系数和可靠性指数,并通过调整测量过程中的各种关系(如侧面样本水平数)来探索如何控制和调节测量误差。根据测量目的不同,研究者可以设计不同的概括全域,通过多个D研究计算出不同概括全域上的多个信度指标。最后,通过这些信度指标的比较,可以确定各测量结构的最佳组合,为完善测验提供更多参考。

  就写作评分的研究而言,概化理论可以从一个总体、宏观的角度审视数据,提供测量目标与不同侧面各自的主效应,以及交互效应(Richard等,2005)。概化理论在区分测试中的各种误差来源以及改进测验程序方面有着巨大的优势,尤其是当评分者主观性对测试结果有重大影响时,概化理论研究显得格外必要。

  1.3 多面Rasch模型

  Rasch测量模型以其统计上的优点和参数估计的便利性著称。1987年,Linacre将基本的双面Rasch模型拓展为多面。Rasch模型(Many-Facet Rasch Model,简称MFRM),该模型将主观题评分视为相互作用的三个因素的函数:被试的能力、题目的难度、评分者的特点。多面Rasch模型不仅能确定考生的能力水平、题目的难度值,同时还能估计评分者的宽严程度,并校正评分者误差对评分结果的影响。评分者的宽严程度用评分者在特定题目上将特定分数给具有特定能力的考生的概率来表示。

  就写作评分而言,通过多面Rasch分析可以使各面之间的相互作用分离,考生的能力值不受其他面的影响。多面Rasch分析还可以从个体、微观的角度提供拟合统计信息,可以发现异常的原始分数,也可以发现其他各个面上的异质点。比较各面的测量值,深入分析异常原始分数和异质点的原因,不仅对主观评分有一个更加深入和准确的把握,还可以提高测量的区分信度(田清源,2006)。

  基于上述理论基础和实践需求,研究者拟采用概化理论和多面Rasch分析相结合的方法,研究写作题目和评分者对评分信度的影响,以期评价和提高研究生入学考试一般能力测试中写作评分的质量。

  2 研究方法

  2.1 被试样本

  从参加硕士研究生入学考试一般能力测试的考生群体中抽取113位考生的写作样本,每位考生的写作样本均包括写作1和写作2两篇文章。由3位具有一定阅卷经验的评分员对所有写作进行评分,分数范围为0~6分。

  2.2 测量的设计

  研究者欲重点考察对作文评分有重大影响的两个主要因素:写作题目和评分者。概化研究中采用两面交叉设计p×i×r的G研究,其中p指学生的写作能力,即测量目标;i指题目面,有2个水平;r指评分者面,有3个水平。题目侧面和评分者侧面均为随机。多面Rasch测量研究中使用的是评分者、考生、题目三面测量模型。

  2.3 统计工具

  研究采用GENOVA软件(Brennan,1983)和FACETS软件(Linacre,2003)进行数据处理。

  3 结果

  3.1 概化理论分析

  在该研究中,G研究采用了p×i×r交叉设计,可以得到考生写作能力、题目、评分者三种主效应,以及四种交互效应。各效应的均方差、方差分量、标准误及方差分量所占百分比见表1。

分享到: 0 转载请注明来源:中国社会科学网 (责编:毕雁)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们