内容摘要:本文在将国内自然语言理解研究概况与国外情况对比的基础上,指出汉语信息处理的应用前景。
关键词:汉语;自然语言理解;前景;计算机模型;语音识别;语音合成
作者简介:
一、引 言
自然语言理解分为语音理解(语音识别、理解与合成)和书面理解两个方面,本文谈的是书面理解。自然语言理解一直是人工智能学科中引人注目而又困难重重的一个核心研究课题,是一门新兴的边缘学科。它试图模仿人类社会中语言交际的过程,建立相应的语言理解的计算机模型,以使计算机学会用人类日常的自然语言(如汉语、英语、日语、法语、德语等)同用户对话。国外自然语言理解研究的是外国语言(如英、日、法、德语)的理解和生成问题,国内则大多研究汉语的理解和生成问题。本文想就汉语自然语言理解研究概况及前景等问题谈一点初浅看法。
二、汉语自然语言理解研究概况
在谈到国内自然语言理解研究概况时,将国内情况与国外情况作一个比较将是有启发的。
首先,从时间来说。国外自然语言理解的研究,开始于40年代末50年代初的机器翻译研究,迄今已有40年的历史,大体经历了三个阶段。第一阶段(50年代初到60年代末):词对词机器翻译研究试验及简单的语言信息处理。这一阶段的工作大都没有利用句法和其他语言学知识来对语言进行分析和理解,研究方法多以模式匹配为主,所涉及的语言现象也很有限。机器翻译处于简单的词对词翻译试验时期(第一代),靠一部双语词典和简单的语法规则来调整词序,结果遇到了重重困难,因而在1966年美国提出黑皮书(即著名的ALPAC报告)之后一度停顿下来。第二阶段(60年代末到70年代中后期):理解自然语言及句对句机器翻译研究。这是自然语言理解步入正轨并获得长足进步的时期,知识表示成为这个时期的一个重要研究课题。这二时期的特点是开始利用多重知识,特别是句法、语义知识来理解语句,使自然语言理解研究出现了一些新面貌和新突破,提出了一些比较成功的处理模型,建立了一批水平较高的自然语言理解系统。同时,自然语言理解研究的理论和成果使机器翻译研究又展现“柳暗花明又一村”的前景,不少国家重新燃起对机器翻译研究的兴趣,机器翻译研究开始复苏,进入句对句机器翻译研究(第二代)。第三阶段(70年代末到现在):与认知科学紧密结合,开始走向实用化。这是自然语言理解开始走向成熟、机器翻译进入蓬勃发展的时期。人们已经意识到:说话有前言后语,写文章有上下文,孤立地识别单个句子不能很好地理解语言,应考虑整个篇章段落,把一句话放到更大的语言单位和使用环境中去理解。这就引起篇章理解和生成、语言行为等课题的研究,对人的认知过程进行深入研究。研究基于认知科学的高级系统,是这个时期的一个特点。这个时期的另一个特点是,随着计算语言学研究的蓬勃发展,在理论语言学、形式语言理论、计算机科学、人工智能和心理语言学等各界的通力合作与相互渗透下,陆续提出一些崭新的语法理论。其中最引人注目的有词汇功能语法、广义短语结构语法、功能合一语法和各式各样的逻辑语法等。据国内外有识之士们预言,这些崭新的语法理论将对未来的语言分析和生成产生巨大的影响。这些形形色色的新语法理论的共同性是都采用了复杂特征集和合一运算。[1]这个时期还有一个特点是开始走向实用。人们开始考虑自然语言理解的工程化和实用化问题,其标志之`是这期间机器翻译研究纷纷走出实验室迈向商品市场,其标志之二是自然语言接口系统商品软件面世。应该说国内机器翻译研究起步时间并不算太晚,而汉语理解研究却是起步很晚,直到1978年才开始这方面的研究。







