首页 >> 社科关注
论社会学理论导引的大数据研究——大数据、理论与预测模型的三角对话 论社会学理论导引的大数据研究 ——大数据、理论与预测模型的三角对话
2019年07月25日 08:45 来源:《社会学研究》2018年第5期 作者:罗家德 刘济帆 杨鲲昊 傅晓明 字号
关键词:大数据;计算社会科学;动态网;圈子理论;嵌入理论

内容摘要:本文以中国风险投资产业网络数据为例,展示了数据挖掘、社会学理论与预测模型间的三角对话,进一步呈现了以理论导引的大数据分析的方法论。

关键词:大数据;计算社会科学;动态网;圈子理论;嵌入理论

作者简介:

  摘要:计算社会科学把社会科学理论以及研究方法与大数据分析熔为一炉,一方面为大数据分析开启了很多新议题,理论指导下的定性、定量调查也可以为数据挖掘的结果提供校准的扎根真相;另一方面,在大数据挖掘的结果中可以找到建构理论的线索,提供验证理论的资料,进而指导预测模型的建构,推论并解释更多的现象。本文以中国风险投资产业网络数据为例,展示了数据挖掘、社会学理论与预测模型间的三角对话,进一步呈现了以理论导引的大数据分析的方法论。

    关键词:大数据;计算社会科学;动态网;圈子理论;嵌入理论

    作者简介:罗家德,清华大学社会学系;刘济帆,清华大学社会学系;杨鲲昊,清华大学社会学系;傅晓明,清华大学社会学系。

 

  一、计算社会科学方法论

  大数据①的出现使计算社会科学(computational social science)得到了极大的关注,然而早期的大数据研究聚焦在应用上,因而只是把收集到的数据当母体,不强调随机抽样,而且主要用于描述性统计和相关分析,不重视因果推论(causal inference)。这样以数据挖掘(data mining)为主的大数据研究方法(Viktor & Kenneth,2014)往往回答了“是何”(what),而不能回答“如何”(how,即了解过程发展的机制)以及“为何”(why,即得到因果关系)。少了“如何”与“为何”的回答,从相关研究中得到的预测模型便欠缺了因果推论的能力(Rubin,1974)。大数据分析最常被引用的例子就是超市收银数据显示买尿布和买啤酒高度相关,因而建议在尿布区旁放上啤酒。但我们应当追问这些消费者是怎样的一群人、他们的消费风格是什么以及他们做出消费决策的心理是什么,有了回答这些问题的理论之后,预测模型才能知道推论的范围。比如,当下有效的预测什么时候会失效?在美国有效的预测在中国是否有效?这样的购买行为还可以推论到其他什么商品?

  通过大数据的数据挖掘得到的预测因子(predictors)以及行为模式(behavioral patterns)可以证伪过去不同预测背后的理论,却无法自证新理论的成立(Popper,1965)。针对由资料归纳得到的结果,我们仍需要进行诠释,形成理论,发展假设,收集相关学术社群能共同接受的“事实”,②与竞争理论的假设进行对话,共同接受“事实”的验证,从而得到学术社群进一步的认可(Lakatos,1980)。使用理论建立预测模型,才可以推论到不同时点,不同范畴以及不同地区、文化的新“事实”,进而建构出可以推论的预测模型(Galison,1987)。简言之,能够做出推论的是理论,而不是数据本身以及数据挖掘的结果。所以,社会科学理论与数据挖掘的对话对预测模型的推论能力至关重要。

  计算社会科学的发展,正是把社会科学的理论带入数据挖掘之中,尤其是大数据的数据挖掘之中。一方面,可以使用大数据对理论发展出来的假设进行验证,梅西(Michael Macy)以大范围地区内电话通话频率来衡量社区社会资本,证实社区社会资本能影响社区经济发展(Eagle et al.,2010)。同时,在理论不够明确时,数据挖掘也能给理论提供启发,我们可以诠释(interpretation)数据挖掘的结果,与可能解释此一现象的理论展开对话,并在此过程中发展新理论。

  另一方面,理论反过来可以指导数据挖掘的方向,比如邓巴(R.Dunbar)主张人脉会因亲疏远近的不同而分成几个圈层,并使用社交网络的资料来加以分析(Dunbar et al.,2015),由此挖掘出区隔亲疏圈层的算法。另外,理论指导下的定性研究与定量调查可以用来收集资料,以校正数据挖掘得到的结果。比如,科辛斯基(M.W.Kosinski)利用脸书大数据去计算脸书使用者的大五人格(Kosinski et al.,2016)时,先以调查方法在现实中收集到一群人的人格测量结果,再在脸书上将这些人的网上行为记录下来,这样收集到的现实“事实”可以验证数据挖掘结果的有效性(Kosinski et al.,2016)。

  针对数据挖掘的目标现象,在社会科学理论与方法指导下以定性、定量调查得到的资料也被称为扎根真相(ground truth)。扎根真相原来是遥感学界的用语(Seager,1995),用来指称高空或卫星成像后,在分析中人们想知道在地面上(ground)其所摄影的真实物件到底是什么(truth)。此概念用于数据挖掘过程中,则指涉的是挖掘出来的预测因子或行为模式在现实中到底存在不存在,以及挖掘出来的目标现象和真实世界中的“事实”到底有多少差别。换言之,理论指导下的调查可以提供检验数据挖掘结果的扎根真相。

  一个理论一旦获得了“证实”,③我们就可以使用理论来建立预测模型,预测模型不仅可以在一定的准确率上还原原有的资料,而且可以在理论演绎中推论出新的“事实”。若预测模型还原原有资料的准确率还有提高的空间,或是它所预测的“新事实”与实际收集到的资料有一定差别,都表示理论还有改善的空间,因此研究者又启动一轮数据挖掘与理论间的对话,从新数据挖掘中得到启发,诠释挖掘的结果并与可能的相关理论对话,对原有理论进行修正,并以资料(大数据、调查数据或二手数据)加以验证。同样,经过修正的理论又可以提出新的预测模型,推论新的“事实”,当然也可能引发新一轮的数据挖掘。

  本文将以上所述的研究过程制作成图1。简言之,理论对大数据分析的贡献在于提供了丰富的新议题,指明了可以研究的新方向,比如大五人格、人脉邓巴圈(Dunbar Circle)以及社区社会资本等,同时在理论指导下用定性、定量方法收集到的“事实”可以作为数据挖掘的扎根真相,提高挖掘成果的准确率。而大数据除了可以用来当作验证理论的资料外,其挖掘成果也可以通过诠释和与其他理论对话来加以演绎,得到新的理论或修正旧的理论。理论又进一步指导预测模型的建构,而预测模型又推论出新的“事实”,无论是在时间上、文化环境上还是新的范畴上,新“事实”又会有相应的新数据,如此周而往复,使理论不断得以修正,也使推论扩展到更广阔的领域中。

图1 数据挖掘、理论与预测模型间的三角对话

  换言之,大数据本身与数据挖掘无法进行推论,其得到的相关结果只能在有限的时空中做应用型的预测。是理论的演绎帮助我们进行更广阔的推论,从而在一轮又一轮如图1的三角对话中扩展大数据分析的方向,也不断地修正社会科学的理论,得到预测模型,推论出更广领域中的现象。下面笔者就以一组风险投资企业的联合投资网络资料④作范例,将此三角对话过程加以完整的展示。

作者简介

姓名:罗家德 刘济帆 杨鲲昊 傅晓明 工作单位:

转载请注明来源:中国社会科学网 (责编:张振)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们