内容摘要:自动词类标注的方法有两种:基于统计的方法:基于规则的方法。
关键词:语料库;自动词类标注;汉语;词类;冯志伟;文本处理
作者简介:
自动词类标注的方法有两种:基于统计的方法:基于规则的方法。
采用基于统计的方法,词类自动标注过程可按如下步骤进行:
(l)从语料库中选出一定数量的文本,作为训练集(training set)。手工分析这个训练集,采用二元语法(digarm grammar),从中归纳出统计数据.(2)根据对训练集的语料分析得出的统计数据,构造统计模型。(3)根据统计模型去标注语料库中新的文本。(4)标注时所用的标记都记录在词典中的单词上。
清华大学计算机系黄昌宁等采用统计方法建立了一个自动词性标注系统,标注正确率达96.8%,自动标注的速度为每秒175个汉字。
对于基于规则的方法来说,最为严重的问题是兼类词。在汉语中,兼类词主要集中在动词、名词、形容词等常用词上.各种兼类现象的比例如下:

基于规则的方法主要根据句法、语义、上下文等语言学规则来消解兼类歧义。
事实上,基于统计的方法是一种经验主义的方法,而基于规则的方法则是一种理性主义的方法,我们应该把经验主义的方法与理性主义的方法很好地结合起来,并且在词性自动标注中吸收不同方法的长处。北京大学计算语言学研究所就采用这样的策略,实验结果如下:切词正确率:97.68%(封闭语料),词性标注正确率:%.06%(封闭语料),95.72%(开放语料)。
(本文摘自冯志伟(2001)“汉字和汉语的计算机处理”)







