内容摘要:针对中文自然语言处理目前存在不尽如人意的情况,盛玉麒认为,主要原因是计算机信息处理与汉语言文字学的结合不够,汉语言文字学界对于自然语言处理的关注、参与远远不够。
关键词:自然语言处理;语料库;中文;研究;互联网环境
作者简介:
近年来,脑科学与类脑智能已经成为世界各国研究的热点。记者从近日在天津召开的“类脑智能创新论坛”上获悉,我国也即将启动“中国脑计划”。自然语言处理技术是各种“脑计划”的核心技术之一,未来“中国脑计划”的构建也离不开中文语言处理核心技术的突破。
自然语言处理已到中级阶段
“简单来说,‘自然语言处理’就是让计算机能够像人一样使用语言文字。”山东大学文学与新闻传播学院教授盛玉麒介绍。“自然语言处理的基本任务是解决人机交互中涉及的各种技术问题。”中国社会科学院语言研究所研究员李爱军告诉记者,自然语言处理包括对文本信息的处理以及对语音信息的处理。
盛玉麒将自然语言处理研究与应用分为三个阶段:初级阶段的自然语言处理主要解决语言文字的输入、输出、存储、传输、显示、打印、编辑、检索等功能;中级阶段的自然语言处理就是让机器具有一定的智能,能够自动识别自然语言指令,按照指令完成信息检索、数据提取、查询、不同语言的自动翻译等;高级阶段就是智能化处理,速度、容量和正确率都能够达到接近人的程度。
目前学界和业界已经实现初级阶段的任务,中级阶段也取得了一些关键性突破,诸如电子词典、快译通、机器翻译等,体现了相关技术的产品化。盛玉麒谈到,不过,整体来看这些技术应用的正确率还不理想,自然语言处理的中级阶段还处在攻关过程中,离高级阶段的真正智能化目标还有较远距离。
规则与统计相结合
破解自然语言处理难题
如何才能让计算机像人类一样使用语言文字?杭州师范大学钱江学者讲座教授冯志伟研究自然语言处理已50多年,他表示,“为了使现实的自然语言成为可以由计算机直接处理的对象,我们都需要建立语言的‘形式模型’,使之能以一定的数学形式,严密而规整地表示出来,建立自然语言的‘计算模型’,使之能够在计算机上实现。”







