首页 >> 专题 >> 综合 >> 跨学科专题 >> 盘点2014全年跨学科研究 >> 协同创新
社会化媒体研究精确性为何遭质疑? 大数据样本存偏差
2015年01月08日 21:37 来源:中国社会科学网 作者:杨敏/编译 字号

内容摘要:入选的研究都以社会化媒体作为研究平台或对象,利用社会化媒体所提供的大量数据,或分析当前在线新闻消费模式所发生的变化,或分析当前读者阅读新闻的偏好,亦或者透过受众的新闻偏好分析受众群特点等。尽管社会化媒体为分析人类行为提供了丰富的数据资料,但越来越多的证据表明,许多预测和分析都歪曲了真实的世界,利用社会化媒体的数据研究依然存在许多漏洞,并得到了其他学科的证实,因此学界必须采取一些行动来提高社会化媒体研究的准确度。另一方面,即使研究人员能明确社会化媒体公司采用哪种算法处理和筛选数据,他们也不能公开这种数据的处理过程,这种研究过程中的不透明性完全违背了科学研究的前提——研究过程中,所选用的方法等细节都应该透明公开,只有这样,其他研究人员才能观察结果是否是可以复制的。

关键词:社会化媒体;研究人员;分析;样本;人群;抽样;盘点;尼曼新闻实验室;研究成果;复制

作者简介:

  12月19日,哈佛大学尼曼新闻实验室盘点了2014年度最有趣的社会化媒体研究。入选的研究都以社会化媒体作为研究平台或对象,利用社会化媒体所提供的大量数据,或分析当前在线新闻消费模式所发生的变化,或分析当前读者阅读新闻的偏好,亦或者透过受众的新闻偏好分析受众群特点等。

  社会化媒体提供大量数据获研究者青睐 

  利用大量数据得出研究结论的历史由来已久。早在1948年,美国杜鲁门总统赢得大选的第二天,《芝加哥论坛报》就凭借大选结果宣布前并不全面的电话调查数据摆了一次乌龙,刊登了题为《杜威击败杜鲁门》的文章,从而被当作新闻界的一次深刻教训。

  而在尼曼新闻实验室盘点的研究中,几乎所有的研究项目都基于大量数据的分析。其中来自乔治亚大学的学者伊泰·伊梅尔博伊姆(Itai Himelboim)和马里兰大学学者马克·A.史密斯(Marc A.Smith)、李·雷尼(Lee Rainie)、本·什雷德曼(Ben Shneideramn)的研究项目“推特主题网络映射:从极化的人群到社区集群”(Mapping Twitter Topic Networks: From Polarized Crowds to Community Clusters”)颇引人注意。该研究主要通过社会化媒体数据的分析理解普通大众。研究人员分析了上百万条信息,发现在政治讨论中常显现出“极化人群”的特征,政治讨论中自由派和保守派在探讨统一主题时,所讨论的内容也在很大程度上依赖于不同的信息源,社会化媒体上的数据清晰地呈现了人们意见和观点的多样性。

  社会化媒体兴起以来,再加上计算机科学等其他学科在分析技术上的辅助,越来越多的研究人员喜欢从社会化媒体中获取数据,从数据中分析人类行为。

  社会化媒体研究准确性为何有待改善 

  “社会化媒体为人们研究人类行为提供了良好的平台和契机,强大的计算机资源与大量社会化媒体数据相结合,让人口结构研究和人类行为研究达到了空前的规模”,11月,加拿大麦吉尔大学计算机科学系研究人员于尔根·普费弗(Juergen Pfeffer)和美国卡耐基梅隆大学软件研究员德里克· 鲁茨(Derek Ruths)在《科学》上发表题为《大量行为研究的社会化媒体》(Social media for large studies of behavior)时指出,尽管社会化媒体为分析人类行为提供了丰富的数据资料,但越来越多的证据表明,许多预测和分析都歪曲了真实的世界,利用社会化媒体的数据研究依然存在许多漏洞,并得到了其他学科的证实,因此学界必须采取一些行动来提高社会化媒体研究的准确度。

  “《芝加哥论坛报》之所以会刊登那样的错误文章,正是因为它所依据的电话调查抽样并不充分,错误的抽样必然会导致结果有所偏差。但也因为这件事,人们对数据精确度以及统计研究的准确度有了更加严格的要求,对今天的社会化媒体研究亦是如此”, 普费弗和鲁茨说。

  丰富的数据资料竟然不能得出准确的结论?对此鲁茨给出了解释,认为社会化媒体研究主要存在样本问题、数据开放存取,以及不准确的用户自我报告问题等。首先,抽样是数据研究中不可避免的步骤,在社会科学研究中,选用大样本是克服样本偏差的关键,但对于社会化媒体研究而言,容易产生两个问题——所研究的人群并不是随机抽样得到的,因此得出的结果很可能不具备普遍代表性;容易产生“人群倾斜”。例如某些社会化媒体的主要用户是年龄为25岁只34岁间的女性,家庭平均年收入约为10万美元左右,使用社会化媒体的人群都有明显的人群特征,所得出的数据很难适用于所有人群。另外,社会化媒体研究常常使用大量样本,因此所产生样本偏差几乎很少得到修正,或者学者直接认为样本数量足够大,就不会或不承认存在样本偏差,从而导致最终的研究成果不够理想。

  其次,社会化媒体的数据访问不受限制。鲁茨认为社会化媒体公司都按照特定的算法进行取样,并过滤自身的数据流。研究人员虽然能从庞大的数据库中选取有限的一小部分作为自己的研究材料,但却并不清楚自己所选取数据背后的信息,即这些数据是基于什么算法被挑选出来的等等,不明白数据的来源方式,就可能为研究带来不确定性。另一方面,即使研究人员能明确社会化媒体公司采用哪种算法处理和筛选数据,他们也不能公开这种数据的处理过程,这种研究过程中的不透明性完全违背了科学研究的前提——研究过程中,所选用的方法等细节都应该透明公开,只有这样,其他研究人员才能观察结果是否是可以复制的。科研成果如果不可复制,则意味着科研结果的可靠性要遭到质疑,原有的科学研究或许有缺陷,要么是实验操作不当,要么是实验条件设置或被试人群选择不当等。但对社会化媒体研究而言,很难做到整个数据处理过程完全公开、透明。

  再次,基于社会化媒体的研究可复制性受到隐私条款的约束,研究人员迫于隐私条款的规定不能完全保留所研究的数据集。但对许多学科而言,标准化的操作应该是研究人员能保留数据集,并利用多样化的方法对所研究的问题反复论证,对比不同方法所得出的结果,确保结果可靠。但对社会化媒体数据而言,要对比不同的分析结果,只能重新分析数据,再加上研究人员不会完全公开自己所使用的方法和代码,研究结果就更难理想化。人们也不能擅自更改隐私条款,因此要解决可靠性问题还需要研究人员披露更多科研细节。

  最后,在研究人类行为的时候,即使是数据开放存取也不能取得完美的结果。

  社会化媒体上有许多用户账户并不对应真实的人,例如一些特定的营销账户等,而研究人员在抽取样本时不能彻底排除这些账户数据,让它们占据研究数据的空间,影响最终结果。数据真实性也难一一核实,虽然许多用户数据是用户自己填写或备注的,但部分数据的真实性无法进行确认。例如,要关注某一学院的用户信息,研究人员无法确定在相关的社会化媒体上,那些用户是否真正就读于这所学校,从而造成结果偏差。

  鲁茨说:“社会化媒体依然会为研究者提供研究人类行为的新方法,但最重要的是要消除方法上的局限性,增强该类研究成果的可靠性。同时研究人员也需要花费大量的精力去分析社会化媒体”。

  原文来源:哈佛大学尼曼新闻实验室  《科学》杂志

分享到: 0 转载请注明来源:中国社会科学网 (责编:奚祺海)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们