首页 >> 语言学 >> 少数民族语言学
蒙古语族多语种数据库标注规范研究
2018年01月08日 10:40 来源:《满语研究》 作者:宝玉柱 字号

内容摘要:

关键词:

作者简介:

  A Research on Annotation Standard for Multilingual Database of Mongolian Language Family

  作 者:宝玉柱

  作者简介:宝玉柱(1954-),男(蒙古族),内蒙古赤峰人,中央民族大学蒙古语言文学系教授,博士生导师,主要从事蒙古语社会语言学和蒙古语语法研究(北京 100081)。

  原发信息:《满语研究》(哈尔滨)2015年第20152期

  内容提要:多语种数据库的标注,不仅要考虑对单个语言单位的分类、标注,还要考虑多种语言信息之间的标注一致性和信息互换性。有一套思想远见、前后一致的标注体系,就能够满足数据库的不同用途、数据库发展不同阶段的不同需要和不同数据库之间、同一数据库不同版本之间的兼容。

  关 键 词:数据库/蒙古语族/标注规范

  标题注释:【基金项目】国家社科基金重点项目(项目编号:14YY019);国家自然科学基金重点项目(项目编号:61331013)。

 

  一、多语种数据库及通用标注规范

  少数民族多语种数据库的语种一般包括少数民族语、国家通用语言、国际通用语言或区域通用语言。少数民族语(或称本地语)是被描写语言或目标语言,国家通用语言(或称国语)或国际通用语言是数据库的分析语言。以多语种数据库为基础,可以生成少数民族语单语词典、少数民族语—国家通用语言双语词典、少数民族语—国际通用语言双语词典和少数民族语—国家通用语言—国际通用语言三语词典。少数民族多语种数据库的研制,表明一个国家的语言研究,在横向研究层次上实现了从个别民族语言到国家通用语言、国际通用语言的信息贯通,在纵向研究层次上实现了通过大规模数据库建设,进入深层次、多角度研究的跨越式发展。多语种数据库的开发,是在国内国际信息通道上解决语言文字差异造成的信息阻隔问题的必要步骤。

  建设数据库的最基本技术是对自然语言进行切分和标注。多语种数据库的标注,不仅要考虑对单语言单位的分类、标注,还要考虑多种语言信息之间的标注一致性和信息互换性。没有统一、前后一致的标注规范,不同语言信息之间的分类、对应、检索、反向检索、筛选、打印等操作都无法正常、有效地进行。

  多语种数据库的用途是多方面的,就使用目的而言,有研究性、开发性、实用性的区别,就使用者而言,有本民族用户和跨语言、跨国界用户的区别。满足多种用户需要,则保证标注符号的通用性(跨语言性)、简易性、操作性和规范性。

  多语种数据库的发展将来必然采取开放建库策略。只要规范文字编码、标注符号和数据库结构,就能够很多小型数据库资源被整合到大型数据库中。目前,世界各地的语言研究者在田野调查中制作了大量具体单语言数据库(大部分是深度标注的),如果能够有效整合这些资源,就能大大加快大型多语种语料库建设,并有效降低建库成本。

分享到: 0 转载请注明来源:中国社会科学网 (责编:马云飞)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们