内容摘要:*本文为国家社会科学基金项目《新中国重大疫病防控中的政府协同及实现机制研究》(14BZZ088)的拓展性研究成果。
关键词:中国史;研究;计量史学;史料;国史学科
作者简介:
作者简介:王冠中,政治学博士,副教授,首都师范大学政法学院,100089。
基金项目:本文为国家社会科学基金项目《新中国重大疫病防控中的政府协同及实现机制研究》(14BZZ088)的拓展性研究成果。
随着信息科技的迅猛发展和移动互联时代的到来,全球拥有数据的规模和总量正在像滚雪球一样快速膨胀。根据IDC(国际数据公司)的监测统计,2011年,全球数据已达1.8ZB(1ZB等于l万亿GB),这个规模将会以每两年翻一番的速度继续增长,预计到2020年,全球数据总量将会达到35ZB,增长约20倍。[1]数据体量的快速增长,催生孕育出“大数据”概念。所谓“大数据”,就是指因数据大爆炸产生的大小超出了典型数据库软件采集、储存、管理和分析能力的数据集。(1998年,《科学》杂志刊载的《AHandler for Big Data》一文中,较早使用了“大数据”概念。2008年,《自然》杂志发表了有关大数据的系列专题文章,使得“大数据”概念迅速流传开来。)大数据与传统数据(也有学者称之为“小数据”)既有联系,也存在重大区别:一方面,两者都是人类用以表情达意和记载历史的工具,都是信息传输的载体;另一方面,大数据通常是被电子化了的数据(亦称“电子数据”),在互联网作用下具有高度的灵活性,其体量庞大,存储、传递快捷简便,智能化程度高。
大数据的流行,加速了人类对大数据技术开发和利用的步伐,国际社会和各国政府纷纷制定了促进大数据相关产业发展的战略和规划。如美国政府,2012年以来分别制定并出台了《大数据:抓住机遇、保留价值》、《大数据研究发展计划》、《大数据与隐私:技术展望》等文件;欧盟继2010年11月发布题为《开放数据:创新、增长和透明治理的引擎》的报告后,很快于2014年又发布了《跨向欣欣向荣的数据驱动型经济》的报告。[2]中国政府也于2015年8月发布了《关于促进大数据发展的行动纲要》,将大数据定性为国家“基础性战略资源”,强调“要顺应潮流引导支持大数据产业发展”[3]。与此同时,国际学术界不同领域学者也争相探讨大数据与本学科、本专业发展的关系。当代中国史研究工作者应该发扬善于运用和处理数据的优良传统,正视大数据技术给学科发展带来的挑战,并在新的时代条件下有效回应这些挑战。
一、当代中国史研究运用和处理数据的优良传统
数据是指进行各种统计、计算、科学研究或技术设计等所依据的数值,它是人类在测量、记录和计算中用于记载事物、辨识数量的工具与手段,是信息的载体。通过数据来发挥记载历史和论证观点的作用是当代中国史研究的一个优良传统。
当代中国史研究萌生于20世纪50年代,到80年代初期形成规模。这一时期的代表性成果,如由河北北京师范学院历史系学生编写的《中华人民共和国史稿》,在阐述新中国成立初期的工农业生产、财政收支、物价、文教事业等问题时使用了大量数据。尤其难能可贵的是,在记叙主要工业产品产量和全国农副产品及主要商品销售情况时,还对大量数据进行了表格化处理。[4]此外,这一时期由南开大学历史系编写的《中华人民共和国大事记》[5]、复旦大学历史系学生编写的《中华人民共和国大事记(1949.10~1958.8)》(复旦大学历史系四年级中国现代史创造性学习小组编订:《中华人民共和国大事记(1949.10~1958.8)》,1958年。)、华中师范学院历史系编写的《中华人民共和国史讲义(初稿)》(华中师范学院历史系:《中华人民共和国史讲义(初稿)》,1960年。)等著作,在阐述经济、人口等量化问题时都运用了数据这一表达工具,有的还对数据进行了图表化处理,为准确记载历史做出了重要贡献。
20世纪70年代末80年代初,随着计量史学的传播和运用,中国一些学者开始尝试在史学研究中将定量分析和定性分析相结合,促成了80年代中后期中国计量史学热潮的形成。[6]这种研究新动向很快影响到当代中国史研究,一些学者开始运用计量史学方法来研究新中国成立后的历史,并形成了大量成果。相关研究将这些成果分为如下四个方面:一是对当代中国人口史的研究,如魏高峰等的《中国人口演化模型与中国未来人口预测研究》、龙姝名等的《人口演化的双指数模型与中国人口预测》;二是对当代中国经济史的研究,如董志凯运用计量方法对土地改革经济动因的分析等;三是对当代中国社会史的研究,如中国社会科学院社会学所朱庆芳等人对当代中国社会发展指标体系的研究;四是对当代中国军事史及政治史的研究,如徐焰对新中国军费开支历史演变的研究等。(详见王爱云:《计量史学方法在当代中国史研究中的运用》,《当代中国史研究》2013年第6期。)这些研究成果既为运用计量史学方法来研究当代中国史进行了有益探索,同时也将当代中国史学科运用和处理数据的水平提升到一个新高度。
进入21世纪之后,计量史学方法在当代中国史研究中得以进一步拓展,这其中又以日本学者村田忠禧的成果最引人瞩目。在《从〈人民日报〉元旦社论看中华人民共和国的历史》、《从改革开放以来的党代会政治报告的词语变化来看中共十六大的特点》等文中,村田忠禧以《人民日报》元旦社论、党代会政治报告等规范性很强的文献为素材,通过分析文献中的相关词频变化来研究中华人民共和国的历史发展规律,使读者眼前一亮。[7]此外,王冠中等的《新时期中国共产党涉农经济政策研究——基于政治报告字词使用的计量与语意分析》一文,强调用语意分析法来弥补计量方法遭遇汉语“一字多义”的不足,倡导将定量分析与定性分析有机结合。[8]这些尝试都涉及对数据的运用和处理,是对计量史学方法应用范围的拓展。
与以往研究相比,计量史学方法运用和处理数据有如下特点:其一,就数据的概念内涵而言,以往研究中数据仅仅被看成是一种量化符号,而计量史学方法则为这种量化符号创设了背景,从而为数据转化为信息(在数据、信息和知识三者之间的关系上,“数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息”。参见涂子沛:《数据之巅:大数据革命,历史、现实与未来》,中信出版社2014年版,第256页。)铺平了道路;其二,就数据的应用范围而言,一般在分析人口、经济、金融等数量问题研究时会广泛使用数据,计量史学方法则将数据的使用拓展到对文献字词使用频率的统计上,大大拓展了数据的应用范围;其三,就数据的使用频率而言,计量史学运用和处理数据较传统研究频繁得多;其四,就使用数据的方式方法而言,传统研究运用数据基本上都是靠人工处理、人脑分析,而计量史学方法则将计算机引入到数据分析和处理中,使数据的处理速度和精准度空前提高。在大数据兴起之前,数据因电子化程度低而使其流动和共享受限,数据与数据之间彼此孤立,很难形成“规模效应”,其价值得不到有效发挥。
二、当代中国史研究面临大数据的多重挑战
大数据技术兴起之后,在移动互联网、物联网、云计算和云存储等网络信息技术的作用下,人类所拥有的海量数据经历了由“死”到“活”的质变过程,彼此的互联互通使数据产生了“1+1>2”的“规模效应”。以当代中国史研究为例,经济史学者可能会运用到生产、消费、金融、财会、交通、电力、科技、能源等方面的统计数据;社会史和人口史学者可能会运用到人口、户籍、医疗、教育、社会组织等方面的统计数据;政治史学者可能会运用到选举、行政区划、阶级阶层、政治组织、国民幸福指数等方面的统计数据;军事史学者可能会运用到边防、海防、信息、军费开支、装备更新等方面的统计数据。这些数据如果各自为政,便只能记叙和表达某一方面的历史演化情况,其价值也就没能得到有效发挥。如果将这些数据电子化,通过软件编码整理建立数据库,并用互联网实现各数据库之间的关联,则能为研究者提供各自无法单独提供的互补、互证资料,为学科知识的更新“繁殖”获得了机遇,由此也使原有数据产生了价值溢价。所以说大数据之“大”,既指数据的体量、规模和灵活性增大,同时更强调数据价值增大以及由此产生的新知识和新思维。这种能够带来价值溢价和实现思维革新的数据,一方面,为当代中国史研究带来了巨大机遇,如在资料收集和运用、研究思维创新及研究成果转化等方面,大数据可以避免以偏概全和发挥跨学科、跨地域和跨时段的“跨界效应”;另一方面,大数据也会对当代中国史研究形成巨大挑战,具体体现在以下四个方面。
(一)对史料收集、存储和运用的挑战
广泛收集史料,科学存储和运用史料,是搞好当代中国史研究的前提。
在大数据技术出现之前,当代中国史研究的史料收集、存储和运用具有一些基本特征:首先,史料的电子化程度比较低,绝大多数史料的存储介质都是纸张,表现为对报刊、图书、档案、书信等资料的收集和运用,对其他介质的史料使用频率较低;其次,对于没被电子化的纸质史料,收集和存储任务艰辛,查阅、检索和运用也费时费力;最后,史料的时空和内容限制,会制约着研究选题的选择。一些超长时段或大跨度空间的选题,时常会因史料收集限制而遭舍弃。此外,在论证具体问题时,史料选择通常以代表性人物、典型事件为主,对普通大众和偶然事件则关注较少。大数据技术会在不同程度上破解史料收集、存储和运用上的这些难题,但也必然会带来新的挑战。







