内容摘要:该子项目包括四个理论研究课题及一个吐鲁番出土文献整理课题:中古汉语构词法与造词法研究(刘杰博士):该项研究的主要内容包括适应中文信息处理的中古汉语复音词的鉴别与界定、构成特点与生成特点、发展趋势及计量研究等内容。中古汉语语法体系研究(胡静书博士):通过对中古汉语的虚词的收集整理,统计分析,目前已完成中古汉语语法体系——词法体系的研究,句法体系研究正在进行。4.董志翘教授结合本项目研究所指导的两篇博士论文(2012届周超《(刘)宋诗词汇研究》、2013届张俊之《二王杂帖词汇研究》)通过制作《(刘)宋诗》、《二王杂帖》数据库,采用计量词汇研究的方法进行,因材料扎实,方法得当,颇多创新,均顺利通过答辩,获得“优秀”等级。
关键词:汉语;研究;教授;语料库;学术;志翘;软件;讲座;数据库;词典
作者简介:
一、 研究计划总体执行情况及各子课题进展情况
本项目于2010年12月27日获国家社科基金办批准立项,立项后召集课题组全体人员根据国家社科基金办反馈的“第17组综合评价意见”(即对本项目的专家意见),就专家组提出的“缩小课题范围,只做中古汉语语料库,集中力量将中古汉语语料库做精做好。加强语料库建设相关理论研究”等意见重新填写了项目的目标任务书并得到国家社科基金办的批准。
项目的最终目标是:在五年建设期间,1.建成国内首个可用于汉语史研究的由多个子库组成的收录原始语料1000万字,库容1600万字的具有多集合特点的深加工中古汉语语料库(内容上是中古汉语代表性语料的集合,结构上是校勘库、义项库、语法库等多库的集合,功能上是自动分词软件、自动标注软件、检索系统软件等多种功能软件的集合。为汉语史语料库的建设作一些理论上的探讨及实践上的尝试,为汉语史研究(特别是中古汉语史的研究),提供一个比较实用的操作平台。2.在中古汉语语法体系、中古汉语词汇系统、中古汉语语料库建设理论研究方面有所突破,产生相关的指导性理论论著。3.研制出“中古汉语语料库检索系统”、 “中古汉语自动分词系统”、“中古汉语词义自动标注系统”“ 、“中古汉语异文发现软件”等一系列相关软件。
自项目开题至今(2011.4—2013.7),已经经过了两年半时间,项目研究时间
(2010.12—2015.12)过半,我们严格按照原订计划,总体进展顺利,目前已经完成全部任务的三分之二(某些方面在原计划的基础上作了较大规模拓展)。具体表现在: 入库语料至2013年9月8月底全部完成校勘(包括初校、终校),字数超过原来规划的1000万字(除原计划1000万字传世文献语料校勘入库外,根据专家建议,新增加了近100万字出土文献语料,同时,增加了繁体电子版佛经语料7亿多字,大大超过原库量)。语料的人工深加工(分词、语义、语法、文字标注)已经完成145万字(并经三次复核),为自动分词、标注软件提供了可靠记忆样本,目前已进入机器自动分词、标注(再人工核对)阶段,工作进度已大大加快。“语义库”、“语法库”、“异文库”均已建成。?原来确定的两个理论研究课题“中古汉语构词法与造词法研究”、 “中古汉语语法体系研究”亦按计划进行,目前已接近完成。同时,新增了“长沙走马楼三国吴简词汇计量研究”、“汉魏石刻资料词汇计量研究”两个出土文献词汇研究的理论课题,目前顺利进行。?语料库的各种相关软件(“中古汉语语料库语料检索系统”、“中古汉语自动分词软件”、“汉语自动语义标注软件”、“ 版本异文自动发现软件”)已经自主研制开发成功,经过反复运用调试,都已进入第三版,目前正实际运用中进一步完善提高。
四个子项目的具体进展情况如下:
(一)“深加工中古汉语语料库语料鉴别与整理研究”子项目(负责人:方向东教授)
按照计划书研究内容和研究方法进行,将须入库的中古语料先进行版本的确定和校勘,已完成《殷芸小说》、《论衡》、《南齐书》、《宋书》、《梁书》、《抱朴子》、《三国志》、《世说新语》、《后汉书》、《齐民要术》、《水经注》、《颜氏家训》、《北齐书》、《搜神记》、《列子》、《先秦汉魏晋南北朝诗》的版本调查工作,并撰写了调查报告;采取课题组参与者分头分工把关的原则,将确定的中古文献语料分课题组成员校勘。目前完成进度如下:《后汉书》(179.4万)《洛阳伽蓝记》(5.7万)《水经注》(40万)《神仙传》(3.8万)《魏书》(140万)《幽明录》《冥祥记》(合计8万)《陈书》《周书》(合计51万)《论衡校释》(90万)《三国志》(85万)《北史》(44万)《北齐书》(28万)《南齐书》(35万)《梁书》(35万)《南史》(80万)17部文献语料共计914.9万字,初校工作已于2012年8月份全部完成。
至2013年7月底,已完成终校的文献是:《后汉书》(周燕飞初校,曹红军、谢秉洪教授负责终校),《洛阳伽蓝记》《神仙传》(李玉娇、李慧娟初校,王锷教授负责终校),《魏书》(魏庆彬初校,王锷教授负责终校),《梁书》(景红纬初校,王锷教授负责终校),《南齐书》(顾言初校,方向东教授负责终校)《陈书》(李卫卫初校,方向东教授负责终校)《南史》(朱娜娜初校,方向东教授负责终校)《幽明录》《冥祥记》(叶国盛初校,方向东教授负责终校),合计542.9万字的终校工作完成。
即将完成的有:《三国志》(朱珠初校,谢秉洪教授负责终校),《论衡校释》(蔡玉英初校,曹红军教授负责终校),《水经注》(王勇初校,吴新江教授负责终校),《北齐书》(易雪丹初校,吴新江教授负责终校),《北史》(吴婷、申阜鑫、郭林初校,吴新江教授负责终校),《周书》(李卫卫初校,吴新江教授负责终校),合计323万字。此项工作目前正利用暑假时间作最后冲刺,全部终校工作将在2013年8月底完成。
另外又增加100万字的出土文献语料(吐鲁番文献、长沙走马楼三国吴简、汉魏南北朝石刻资料),该项语料由“深加工中古汉语语料库理论研究”子项目组成员负责录入校勘,目前也已完成。
也即是说,至2013年8月底,该子项目的预定任务已经圆满完成,今后的工作是对将来临时增加的语料进行校勘。
(二)“深加工中古汉语语料库建设研究”子项目(负责人:化振红教授)
该子项目组自2012年年终检查至今主要完成以下工作:
修订义项库(化振红教授、汪祎博士):针对原有的中古词语义项数据库中收词数量不足、义项不全、词条和义项交叉、多义词处理不当等缺陷,重新进行了校对、整理,截至目前,新修订的义项库词条总数共483,432条,全部完成了人工校对工作并投入使用。(并结合“义项库”的建设,建立了《汉语大词典》数据库)
建立异体字、疑难字库(赵家栋副教授):针对中古语料中极为普遍的特殊用字现象,建立了专门的中古汉语语料库异体字数据库,收入各体汉字3700个左右,基本解决了现阶段语料切分、标注以及未来的词语检索过程中的字体转换问题,部分解决了数据库中疑难字的显示问题。下一阶段,将大量收入中古汉语疑难字,建立与系统检索软件完全匹配的中古汉语语料库疑难字库。两个字库继续升级、最终合并之后,可望完全解决整个数据库的检索、显示等问题。
语料标注(化振红教授负责组织全体教师、博士):继续进行了语料的人工切分、标注工作,提供了更多的人工切分、标注样本。从2012年12月年检截止目前,新增人工切分、标注样本约59万字,累计完成人工标注样本145万字左右。初步实现了改进后的义项库、人工标注样本与电脑切词及标注软件的对接,对程序软件标注的语料样本正在进行评估、调研,提高程序软件切词、标注的正确率,目前的切词、标注的一次正确率达到75%左右,新一轮的调试正利用暑假紧张进行,9月初正式进入程序软件操作为主、人工校对为辅的切词、标注阶段。届时,语料切词、标注进度将大大加快。
(三)“深加工中古汉语语料库理论研究”子项目(负责人:黄 征教授)
该子项目包括四个理论研究课题及一个吐鲁番出土文献整理课题:
中古汉语构词法与造词法研究(刘杰博士):该项研究的主要内容包括适应中文信息处理的中古汉语复音词的鉴别与界定、构成特点与生成特点、发展趋势及计量研究等内容。作为词汇理论研究,与中古汉语语法体系的研究、语料的鉴别与整理、汉语史数据库平台建设等其它项目的研究是互补关系,几个部分相互依托,共同推进。目前通过整理国内近二十年来中古汉语复音词研究的成果,对大量专书、专类词汇研究著述中的复音词的研究成果进行全面梳理和整理,对中古汉语复音词进行了计量研究,已完成“中古汉语核心复音词表”的整理编纂(近10000词条)。服务于后续研究的需要。在收集整理中古复音词的同时,对各家各类研究成果进行梳理,尤其是中古汉语复音词的界定标准进行归纳分析,建立了一套能服务于语料库建设需要的中古汉语复音词的界定标准和“分词”依据。“中古汉语的构词法”、“中古汉语的造词法及新词生成机制”这两个问题正在研究。







