内容摘要:3.子课题二“现代汉语句法计量研究”进展情况该子课题已经基本完成了“汉英平行语料库”“汉语历时语料库”“依存语法树库”“汉语(句法)网络”等研究资源的构建工作。并在此基础上开展了汉语配价的协同特征、人类语言句中信息分布研究、汉语多层级系统、汉语句法历时比较、汉语文体比较、英汉句法比较、依存句法网络特性及其在语言类型学领域的应用等方面的研究。这些方面的研究现在已经取得了一些重要的成果,为今后全面系统地将计量语言研究与语言认知结构研究有机融合并进行更深一步的研究打下了基础。课题组在计量语言学理论与方法、汉语(语音、词汇、句法、语义、语体等)计量研究、多语计量研究、语言认知、语言计量研究方法创新等方面取得了丰富的研究成果。
关键词:语言;汉语;依存;语义;句法;分布;网络;计量研究;算法;研究成果
作者简介:
一、研究计划总体执行情况及各子课题进展情况
1. 研究计划总体执行情况
自立项以来,课题组积极、认真开展研究活动。截止到2013年8月,基本完成了本时间段原定的研究计划。具体来说,(1)完成了用于开展研究的“多语体现代汉语语料库”“汉语历时语料库”“汉英平行语料库”“依存语法树库”“汉语(句法)网络”等语言数据资源库的构建和部分数据统计、分析工作;(2)完成了大量文献调研工作,尤其是计量语言学重要文献的收集整理、翻译、校订等,已完成两部译著;(3)设计并实施了多种共计近1500人次的心理语言学实验;(4)在上述基础上开展研究,已发表10余项阶段性研究成果,其中大多数成果发表于国内外高水平学术期刊,被SCI、SSCI、A&HCI等检索系统收录的论文达到6篇。
目前,本课题的多个研究方向均处于紧锣密鼓的研究阶段,预计会产生不少高水平成果;部分研究方向在完成既定研究计划后,将针对研究过程中遇到的问题进行调整、补充,继续深入追踪相关问题,或增加新的研究方向。
就课题研究计划来说,已经完成的工作和取得的成果相对较多、质量较好。一方面,这说明课题组态度积极、工作努力,采用的研究方法科学、高效,能够在跨学科语言研究方面取得有价值的新发现;另一方面,也说明本课题研究还有很大的拓展空间,值得继续努力,深入开展研究。下面分子课题具体介绍研究进展情况。
2. 子课题一“现代汉语文本的计量研究”进展情况
子课题一的研究主要基于词典数据和文本(包括口语转写文本)。目前已经建立了一个涵盖12种语体的百万字规模的“现代汉语多种语体文本语料库”,并在此基础上开发了一系列计算机程序,形成了一个面向计量语言学研究的语言结构特征数据库。虽然在语料规模、样本代表性与多样性等方面还有待加强,但是其架构与内容、计算方法与工具等,除了能够满足既定研究的需要外,还在一定程度上为开展其他层面的汉语计量语言学研究奠定了基础。
除资源建设外,该子课题主要开展了汉语语音、词长、词长与词义关系、词性、词频、词汇丰富程度等词汇层面的计量研究,以及基于词汇层面语言结构的语体计量研究和历时研究。以下前四项研究已经发表或已录用待发表,后三项研究处于论文写作、修改阶段。
(1)汉语语音计量研究,详见“代表性成果简介”第2项。
(2)汉语词长与词义关系研究。基于《人民日报》和《现代汉语词典(第五版)》(动静结合)的词长分布与词长-词义函数关系研究发现:第一,汉语最大限度的实现了经济原则,即在不扩大单字符字库的情况下,最大程度使用最短组合(两字词);第二,词长分布一方面具有共性,如汉语词长的静态、动态词型(type)、动态词例(token)都符合Positive Cohen-negative Binomial分布,另一方面,动态词例具有特殊性,除了符合Positive Cohen-negative binomial分布,与Dacey-negative Binomial分布的拟合度更高。该函数的特点在于,它融合了Dacey-泊松、伽马、贝塔3种分布。虽然共同属于Negative Binomial分布的衍生形式,但较之Positive Cohen-negative Binomial分布更为复杂。此语言学现象结合统计学理论可解释为,静态与动态语料的最大区别就在于频率因素,而语境需求、语义明确化、词汇多样化、语言编码解码最优化、传输准确性保障都在频率中有所体现。在频率的影响下,词长呈现了更复杂、多融合性的分布特点、表现出不同于静态分布的特殊性质;第三,词长-词义双向数量关系在动、静态条件下都符合幂律函数,即词长越长所承载词义越少,词长越短多义程度越高。







