首页 >> 争鸣 >> 综合争鸣
从大数据危机到全数据革命
2015年03月23日 09:27 来源:《中国社会科学报》2015年3月23日第717期 作者:王馥芳 字号

内容摘要:2014年 3月,《科学》杂志在“政策论坛”栏目发表了Laser等人的一篇题为《谷歌流感寓言:大数据分析陷阱》的论文,引起了人们对大数据的警惕。论文作者援引2013年 2月《自然》杂志发表的一篇论文所提供的数据指出,谷歌所预测的有关流感类疾病的就医比例,是美国疾病防控中心所获得的数据的两倍多。前者的结论基于与流感相关的大数据搜索得出,而后者的数据依据对全美各个实验室的流感监控报告得出。以谷歌流感趋势预测为例,因其致力于不断地测试和改善搜索体验,故搜索运算方法一直在变,而这不仅是谷歌众多工程师反复决策的结果,同时也是其分布在世界各地的数以亿计的客户的搜索行为所致,并最终影响其预测结果。

关键词:预测;收集;认知;分析;搜索行为;延性;谷歌流感;数据革命;搜索运算;思维

作者简介:

  2014年3月,《科学》杂志在“政策论坛”栏目发表了Laser等人的一篇题为《谷歌流感寓言:大数据分析陷阱》的论文,引起了人们对大数据的警惕。论文作者援引2013年2月《自然》杂志发表的一篇论文所提供的数据指出,谷歌所预测的有关流感类疾病的就医比例,是美国疾病防控中心所获得的数据的两倍多。前者的结论基于与流感相关的大数据搜索得出,而后者的数据依据对全美各个实验室的流感监控报告得出。

  谷歌流感趋势预测失真的事实让学者们开始思考这样一个问题:鉴于这是对大数据的补充性使用,我们到底可以从这个预测错误中得到什么教训?Laser等人得出的结论是:尽管搜索或者社会媒体等提供的数据可以被用于预测,但是,大数据远未到完全取代传统方法、假设或者理论的时候。

    “不可重复性”危机

  Laser等人认为,造成谷歌流感趋势预测失真的两个重要因素是数据自大(data hubris)和搜索运算动态性(algorithm dynamics)。数据自大是指:大数据不仅仅是补充性的,而且可以完全替代传统的数据采集和分析方法。搜索运算动态性是指:数据运营商为支持其商业模式、改善其服务质量、适应用户行为的改变将对搜索运算方法产生各种影响。以谷歌流感趋势预测为例,因其致力于不断地测试和改善搜索体验,故搜索运算方法一直在变,而这不仅是谷歌众多工程师反复决策的结果,同时也是其分布在世界各地的数以亿计的客户的搜索行为所致,并最终影响其预测结果。每一次数据运算收集和运算方式的改变,都在影响数据生成和收集的连贯性。另外,一些有影响力的搜索主体,还会试图通过操控数据生成过程的方式来达到自己获取经济、政治或者社会收益的目的。如此,数据生成和收集之间将出现断裂。

  搜索运算动态性因此可能导致大数据研究的“不可重复性”危机。可重复性是指科学研究被重复实施时得到的结论与原研究结论之间的一致性程度,它是科学与非科学的分界线。目前,几乎所有的大数据研究都面临“不可重复性”危机。数据搜索方式的频繁改变,使人们无法获取连贯的大数据。这使其研究不可被证伪,因此有效性大打折扣。

 

分享到: 0 转载请注明来源:中国社会科学网 (责编:刘浩然)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们