首页 >> 教育学 >> 高等教育学
升学目标地数据研究教育机会不平等的局限性 ——以“首都大学生成长追踪调查”为例
2020年01月03日 10:04 来源:《社会学评论》2019年第3期 作者:李代 字号
关键词:教育不平等;高考;社会分层;社会流动

内容摘要:基于“阈值依赖不平等”的研究框架,试图说明基于目标地数据得到的定量研究结果可能在可阐释性和可推广性方面存在局限,而且“首都调查”自身在无偏性方面存在缺陷,可能导致有误导性的结果。

关键词:教育不平等;高考;社会分层;社会流动

作者简介:

  作者简介:李代,北京大学新媒体研究院助理研究员,主要研究方向为社会分层与流动。

  内容提要:在升学过程中出现的教育机会分配不平等问题是社会分层领域的重要研究课题。一些定量研究采用的数据是升学目标地调查数据,也就是从完成升学的大学生人群中采集的调查数据。本文以“首都大学生成长追踪调查”的数据生成过程为例,将模拟生成数据与某省完整高考数据进行对比,基于“阈值依赖不平等”的研究框架,试图说明基于目标地数据得到的定量研究结果可能在可阐释性和可推广性方面存在局限,而且“首都调查”自身在无偏性方面存在缺陷,可能导致有误导性的结果。

  关 键 词:教育不平等 高考 社会分层 社会流动

  标题注释:中国博士后科学基金资助项目“基于大数据视角对高等教育机会不平等的研究”(项目编号:8206300008)。

  从知识进化论(波普尔,1987)的视角来看,学术研究往往是在已有基础上的积累前进,当理论、方法或数据当中任何一方面取得进步时,新的研究成果得以产生,而此前被学术界接受的研究结论就有可能被置于怀疑的境地。一种常见的情况是原有研究者受限于现实条件而只能抛弃理想化的研究方案,转而采用可行性更强的方案。这样的条件下取得的研究成果尽管未必能令人完全信服,但向可行性的妥协造成了多大的偏差难以评估,在没有更好的选择时也有可能说服学术界加以接受。一旦新的研究者有条件采用更为严谨的研究方案对同一问题进行研究,此前的研究结果就可能需要得到更新。例如,由于无法观察到总体情况,研究者采用抽样调查来获得对总体参数的无偏估计;由于数据采集成本过高,研究者实施的抽样方案未必能满足随机抽样的理想条件,而会存在一定妥协。这些妥协往往伴随着一定的代价,但是由于抽样调查的稀缺,针对同类问题往往只有屈指可数的可比较的调查数据,因而基于这些数据进行的研究缺乏有效的反馈回路来校验其结果的可靠性。

  本文试图提供对教育不平等议题下一类研究的校验。教育不平等本身是非常重要的研究课题,获得对总体参数的准确估计不论是对学术研究还是政策制定都有非常明显的价值,因此对其进行精细的讨论很有意义。教育不平等有多种表现形式,而得到研究最广泛的问题之一便是不同群体在获得教育机会方面的不平等。例如,家庭背景、地域、城乡、性别、民族等等重要的变量都可能对教育机会的获取产生影响,从而造成群体之间的教育不平等。到底不同群体之间的教育不平等差异多大?不平等的变化趋势如何?这一差异是如何产生的?

  要准确地回答这些关于教育不平等的问题,定量研究不可或缺。对教育不平等的定量研究,采用的数据可以分为三类。第一类是一般性的调查数据,例如中国1%人口抽样调查、中国儿童情况抽样调查(张春泥、谢宇,2017)、中国家庭追踪调查(陈伟、乌尼日其其格,2016;李忠路、邱泽奇,2016)、中国综合社会调查(杨中超,2016)等等。第二类是生源地数据,这类数据的研究总体是参与同一场教育竞争的人群。例如,某年某省全部参与高考的学生构成的数据,就是一个典型的生源地数据(李代,2017)。与之相对,第三类是目标地数据。在中国,来自全国不同生源地的学生经过高考而汇聚到大学之中。他们所进入的大学,便是我们所说的升学“目标地”,而从大学生中获得的数据,便构成了目标地数据。例如,首都大学生成长跟踪调查(吴晓刚,2016)、首都高校生发展状况调查(叶晓阳、丁延庆,2015)、学籍卡数据(梁晨等,2012;梁晨、董浩,2015)。

  这三类数据的本质差别不在于是否进行抽样,而在于总体的构建与作为研究对象的升学机制是否相互独立。一般性调查数据在构建总体时并不涉及升学的问题,也就是说总体的构建与升学相独立。生源地数据在构建总体时,选取的是升学发生之前就能定义出来的、相互竞争教育机会的人群。目标地数据在构建总体时,选取的是升学过程产生的、获得了教育机会的人群。从理论上来讲,要测量升学过程中出现的教育不平等问题,前两种数据都可能提供准确的结果,而第三种数据多数情况下不能提供准确的结果,因为它缺失了教育竞争中失败者的信息。尽管有不可回避的缺陷,但是因为数据收集方面的便利,目标地数据在大量的研究中得到了使用。本文想指出的是,采用目标地数据进行定量研究,得到的结果很可能存在可阐释性方面的问题、可推广性方面的问题,这些都使得研究结果的价值大打折扣,而且难以与前两类研究得到的结果直接进行比较。

  为了说明这些问题,本文以“首都大学生成长跟踪调查”(后文简称“首都调查”)的数据生成过程为例进行分析。之所以选取这一数据进行案例分析,是因为它是典型的目标地数据,而且有不少重要的研究都基于这一数据进行,例如,吴晓刚(2016)、谢桂华和***阳(2016)、李骏(2016a,b)、李忠路(2016)、许多多(2017)、朱斌(2018)等等。由此可见,这一数据在研究教育不平等议题方面是质量相对较高的,否则不应产出这么多得以在优秀学术期刊发表的成果。以这一数据为例进行讨论,有更大的典型性。这一调查数据并未公开,因此本文并没能掌握数据本身①。但是数据生成的过程在研究者的文章中得到清晰的介绍(吴晓刚,2016;李路路,2013),这使我们可以对某一总体数据进行筛选,按照“首都调查”实施抽样的步骤生成模拟数据,从而判断是否能够基于该调查数据得出可靠的研究结论。

  要生成模拟数据,本文使用的是某省某年的完整高考数据。该高考数据中包含了全部报考考生的个人信息、考试成绩及录取结果。这一数据包含了全部报名考试学生的信息,因此是一个总体数据。由于包含了录取结果,对其按一定的条件取子集,能够生成目标地数据。如果目标地数据是有效、可信的,那么用总体数据和模拟生成出来的目标地数据分别进行同样的分析,得到的结果应该是完全一致或至少非常接近的。如果不然,就说明用目标地数据进行分析的结果不那么可靠。因此,对生成的目标地数据重复对总体数据进行的分析,比较二者结果的差异,可以评估目标地数据的可靠程度。

  本文按照“首都调查”的说明,从完整的数据中生成目标地数据,穷举分数线从1分取到700分的情况,分别计算相应的性别不平等程度。之所以选择性别不平等作为研究的对象,出于以下三个考虑。第一,抽样调查数据对研究者的允诺是提供对总体参数的无偏估计,因而任何变量上都不应该出现较大的偏误。所以,本文不需要对所有变量进行详尽的分析,只要举出一个反例就足以说明问题。第二,选择性别变量作为研究的焦点,是因为性别在社会学研究中广受关注——前面列举的研究无一例外都控制了性别变量;在研究人群中性别比例比较均衡、分数分布也存在差异,描述性别不平等比较容易揭示出问题。第三,之所以选取李代(2017)中“阈值依赖不平等”研究框架作为重复研究的内容,是因为这一研究框架在每一个可能的分数线处计算一次升学差异,例如从1分到700分计算700次假想的分数线带来的结果,就相当于进行了700次逻辑斯蒂回归,得到的结果可以带来对整体情况全局的把握。这比起以一本线、二本线等标准计算一次回归提供了更多的信息,能更好地展现不同人群升学机会差异的结构。

  本文的研究结果包括以下几方面内容。首先,作为一个抽样调查,“首都调查”面对所有抽样调查都面对的挑战。由于中国的高考是分省、分文理进行的,如果在调查研究和模型设置时不对这些变量加以控制,就可能导致一类“生态谬误”——辛普森悖论(Simpson's Paradox)(Simpson,1951)。吴晓刚(2016)试图通过将考试分数标准化来解决这一问题,但其效果并不理想。如果控制省份、文理的变量,就可能导致样本量不能满足模型要求,从而得不出显著结果。其次,“首都调查”作为一个目标地抽样调查,存在两类特定问题。由于其总体是升学的结果,难以放入日常生活经验中加以理解,因此有可阐释性问题;要想通过把结论推广到可阐释的人群上去来解决可阐释性的问题,又发现其结果不具备很强的可推广性。最后,就“首都调查”自身而言,因为采用的抽样方案实施效果不甚理想,样本对研究总体的参数估计很可能是有偏的。

  本文是一篇反思性研究,提出的问题是笔者在研究中也会经常面对而没有良好解决方案的难题。但是另一方面,如果本文能提醒研究者意识到这类研究的缺陷、明确其研究贡献的限度,甚至激发学者提出有效的解决方案,本文也就不失为有微末的贡献了。

作者简介

姓名:李代 工作单位:北京大学新媒体研究院

课题:

中国博士后科学基金资助项目“基于大数据视角对高等教育机会不平等的研究”(项目编号:8206300008)。

转载请注明来源:中国社会科学网 (责编:毕雁)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们