内容摘要:少数民族濒危语言有声语档包含了不同功能的语言资源:作为内容对象的濒危语言,作为描写和解释濒危语言的元语言,以及作为数字化立档案元数据呈现的语言。2007年正式批准的ISO639-3是一个超集,包括所有语言(不含三字英文代码),它的语种资料有三个来源:基本资料来自ISO639-2所收录的单个语言,以及取自《民族语》(ethnologue, SIL)的现代语言调查资料,而过去历史的各类语言及古老的语言和人工语言。因此,在针对濒危语言本身的描写中,即上面说的受控词language_description,应该分为两类,一是濒危语言基本情况(主要是使用情况)的描写,二是对濒危语言结构的描写,如《新发现语言丛书》中对语言的描写和分析,后者应该作为濒危语言有声语档的扩展集来考虑。
关键词:语言资源;濒危语言;语料;方言;开放语档联盟;描写;记录;词汇;话语;描述
作者简介:
作者简介:范俊军(1963- ),男,湖南桂阳县人,暨南大学汉语方言研究中心研究员,博士,主要研究方向为汉语方言及南方少数民族语言、现代语言技术(广东 广州 510632)。
内容提要:建立科学的理论规范和实践规程,是少数民族濒危语言有声语档建设的基础工作。国际民间协作组织——开放语档联盟,针对语言资源数字网络化立档制定了一整套技术标准和建议性文件。这些文件对于制定我国濒危语言有声语档建设的语料类型标准、语言编码标准、数据格式标准和内容描述规范,有重要的参考借鉴价值。濒危语言有声资源数字化立档,应充分吸收这些标准和实践建议,结合语言国情,进一步补充和完善。少数民族濒危语言田野调查者应破除本位主义观点,依照统一的理论规范和实践规程,进行有声资源的采录与立档,把语言资源无私地奉献给社会。
关 键 词:少数民族濒危语言;有声语档;OLAC;开放语档联盟;语料库;语言资源
标题注释:【基金项目】广东省人文社会科学重点研究基地重大项目“岭南方言资源监测及资源库建设”(编号:07JDTDXM74004)。
一、引言
自本世纪初,国外的濒危语言研究就已经从语言学描写转向有声资源的记录和保存[1],而国内至今仍然主要是书面记录和描写,濒危语言的语音资源流失问题一直没有得到解决。濒危语言是不可再生的非物质文化资源,抢救和保护濒危语言的核心是保存语音原貌,使语音状态得到切实地记录。近10年来,一些高校和机构有过建立少数民族语言语音数据库的计划和尝试,如“云南少数民族语音数据库”项目,涉及2种濒危语言,研制了软件工具,做了重要的开创性工作[2];“少数民族濒危语言语音数据库”计划,曾进行了几种濒危语言录音语料的转写和标注[3];少数民族语言声学参数数据库,采集了几个大语种的样本进行实验[4]。① 除此之外,一些关注少数民族濒危语言的学者从各自的研究角度摄录了一些有声语料。但总的来看,这些研究计划和实践尝试大多属于纯学术研究。国内学界对于濒危语言有声语料的采集、记录和立档,从理论到实践尚未形成共识,也还没有开展真正意义上的濒危语言有声资源记录和保存工作。造成这种状况的原因,除了客观上人力财力支持不足外,语言学者偏重个人学术旨趣,忽视了惠及语言族群和普通民众的基本研究,也是因素之一。另有一个重要的原因就是,国内至今没有建立濒危语言有声资源记录和立档的理论规范和实践规程。无规范和标准可依,实践操作中标准化意识淡薄,这使得濒危语言语料的采集记录带有很大的个人随意性,导致语料无法进行统一数字化处理,资源不能共享,浪费人力、物力和财力。由此可见,充分了解和借鉴国际上成熟的标准和规范,吸取国外成功的实践经验,进而制定我国少数民族濒危语言有声语档建设的理论规范和实践规程,就显得十分必要。鉴于此,本文对国外“开放语档联盟”及其规范和标准进行介绍和分析,进而探讨它们对我国濒危语言有声语档建设的适应性问题。







