论文部分内容阅读
多媒体技术、互联网技术的发展对语料库研究和词典编纂产生了深远的影响。语料库从文本语料库逐步向语音语料库、多媒体语料库发展。词典也从传统的纸质词典向电子词典、网络词典发展。语料库、词典编纂、信息技术的日趋成熟使得多模态、多媒体、多环境新型词典(简称“三多”词典)的建设成为了可能。 本文围绕“三多”词典建设的核心问题展开研究,提出并实现了多媒体语料库数据集成方案。本文的工作基于“现场即席话语多模态语料库”(SCCSD),这增加了本文研究难度,也使得本文研究工作充满挑战。“现场即席话语多模态语料库”由口语转写文本,自然真实场景录制的音频流文件、视频流文件三类数据组成。换言之,本文数据集成工作建立在这些“噪音”语料之上。 本文研究从Gu(2006,2009)建立的话语活动概念模型出发,建立话语活动数据模型并工程实施。 论文的主要工作及贡献体现在以下几个方面: 1、介绍了语料库、词典编纂、数据集成的最新研究成果,系统分析了“三多”词典的含义、相关研究成果以及建设难点。 2、根据多媒体语料处理特点提出多媒体语料分层处理模型。多媒体语料处理模型总体分为底层、中间层、顶层三个层次。其中,底层与计算机硬件关联紧密,计算机处理相对容易。顶层与高级语义、艺术欣赏关联紧密,计算机处理最困难。中间层由多个子层组成,自下而上的计算机对各子层的处理难度依次增加,语料切分标注时需要的人工干预也越来越多。 3、基于多媒体语料分层处理的结构层和结构标注层,讨论了多媒体语料切分标注的理论与实践。实践部分既包括本课题组实现的切分标注方案也包括第三方可选方案的介绍。多媒体语料切分标注具体讨论的内容包括:①文本语料的分句、分词、词性标注,文本语料库处理工厂的设计与实现;②图像语料的切分与标注;③音频语料的话语单位切分、音频转写、音频标注;④视频语料的帧切分、镜头切分、场景切分以及视频标注等。 4、提出多媒体语料库数据集成方案,它以鲜活的话语活动为中心、媒体时间为基线对多种媒体语料进行数据集成。该数据集成方案面向“三多”词典但不局限于“三多”词典,其他多媒体语料库的建设与应用项目均可从本方案中得到借鉴。 5、构建多媒体语料库原型,设计并实现“三多”词典原型,包括“三多”词典的统计、检索等功能。 基于多媒体语料的“三多”资源型词典是本文的特色,也是词典编纂及应用的一种新的尝试,具有广阔的应用前景和重要的研究意义。