首页 >> 专题 >> 学科专题 >> 语言学专题 >> 当汉语研究遇到人工智能 >> 汉语信息处理主要成就
汉语书面文本的自动短语定界和句法标注
2015年09月28日 13:53 来源:《当代语言学》第3卷2001年第1期 作者:冯志伟 字号

内容摘要:在对汉语书面文本进行自动切词和自动词性标注之后,我们应该认真地检查实验的结果。如果我们确认这些结果都是正确无误和无懈可击的,那么,就可以开始自动短语定界和自动句法标注的工作。

关键词:语料库;冯志伟;书面文本;短语划分;句法标注;自动处理

作者简介:

  在对汉语书面文本进行自动切词和自动词性标注之后,我们应该认真地检查实验的结果。如果我们确认这些结果都是正确无误和无懈可击的,那么,就可以开始自动短语定界和自动句法标注的工作。这些工作可按如下步骤进行: 

  根据单词的信息、词类类别和句法特征,确定哪一个单词是短语的左边界,哪一个单词是短语的右边界,哪些单词是短语的中间部分。 

  短语定界的格式如下: 

  其中,[w是开括号,它是短语的头,w]是闭括号,它是短语的尾。 

  自动短语定界的步骤是:(l)根据上下文信息,把开括号与相应的闭括号对应起来。(2)根据歧义消解规则和统计信息,消解短语定界的歧义。(3)生成表示句子结构的成分结构树。 

  现在,北京大学计算语言学研究所正在开发一个汉语语料库的多级加工系统(Cihnese corpus multilevel processing,CCMP)。这个CCMP系统包括两个子系统和一些辅助工具。 

  子系统是自动切词和词性标注子系统、自动短语定界和句法标注子系统。 

  辅助工具有查询工具、样本采取工具、统计工具、语料库管理界面等。 

  实验结果如下:交叉括号的百分比为13.98%:错误短语标记的百分比为8.65% 

  从实验结果来看,汉语语料库的白动标注和多级加下处理,还有相当多的问题等待我们解决。 

  下面是一篇短文前6句的短语定界和句法标注结果,梅句前面都标有序号。标注时采用北京大学计算语言学研究所的标注符号。 

分享到: 0 转载请注明来源:中国社会科学网 (责编:王婷婷)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们