面向“三多”词典的多媒体语料库数据集成研究

来源 :中国社会科学院研究生院 中国社会科学院 | 被引量 : 0次 | 上传用户:sl2260ygl2260
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体技术、互联网技术的发展对语料库研究和词典编纂产生了深远的影响。语料库从文本语料库逐步向语音语料库、多媒体语料库发展。词典也从传统的纸质词典向电子词典、网络词典发展。语料库、词典编纂、信息技术的日趋成熟使得多模态、多媒体、多环境新型词典(简称“三多”词典)的建设成为了可能。  本文围绕“三多”词典建设的核心问题展开研究,提出并实现了多媒体语料库数据集成方案。本文的工作基于“现场即席话语多模态语料库”(SCCSD),这增加了本文研究难度,也使得本文研究工作充满挑战。“现场即席话语多模态语料库”由口语转写文本,自然真实场景录制的音频流文件、视频流文件三类数据组成。换言之,本文数据集成工作建立在这些“噪音”语料之上。  本文研究从Gu(2006,2009)建立的话语活动概念模型出发,建立话语活动数据模型并工程实施。  论文的主要工作及贡献体现在以下几个方面:  1、介绍了语料库、词典编纂、数据集成的最新研究成果,系统分析了“三多”词典的含义、相关研究成果以及建设难点。  2、根据多媒体语料处理特点提出多媒体语料分层处理模型。多媒体语料处理模型总体分为底层、中间层、顶层三个层次。其中,底层与计算机硬件关联紧密,计算机处理相对容易。顶层与高级语义、艺术欣赏关联紧密,计算机处理最困难。中间层由多个子层组成,自下而上的计算机对各子层的处理难度依次增加,语料切分标注时需要的人工干预也越来越多。  3、基于多媒体语料分层处理的结构层和结构标注层,讨论了多媒体语料切分标注的理论与实践。实践部分既包括本课题组实现的切分标注方案也包括第三方可选方案的介绍。多媒体语料切分标注具体讨论的内容包括:①文本语料的分句、分词、词性标注,文本语料库处理工厂的设计与实现;②图像语料的切分与标注;③音频语料的话语单位切分、音频转写、音频标注;④视频语料的帧切分、镜头切分、场景切分以及视频标注等。  4、提出多媒体语料库数据集成方案,它以鲜活的话语活动为中心、媒体时间为基线对多种媒体语料进行数据集成。该数据集成方案面向“三多”词典但不局限于“三多”词典,其他多媒体语料库的建设与应用项目均可从本方案中得到借鉴。  5、构建多媒体语料库原型,设计并实现“三多”词典原型,包括“三多”词典的统计、检索等功能。  基于多媒体语料的“三多”资源型词典是本文的特色,也是词典编纂及应用的一种新的尝试,具有广阔的应用前景和重要的研究意义。
其他文献
本文基于静态箱/红外气体分析法,分析太湖流域西部丘陵区不同植茶年龄(3、9和20 a)茶园生态系统碳通量特征。结果表明:茶园生态系统碳通量日变化和季节变化均呈单峰型,最大碳
叙事的商业化已成为一种世界潮流,它引发了叙事的大变革.在形式上叙事摆脱了旧有形式的束缚,结合现代科技形成了以影视为主体的形象叙事体系;在内容上以迎合大众口味为标准,
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
雁翅社区隶属于安徽省宣城市宣州区。根据《中国语言地图集》(中国社会科学院、澳大利亚人文科学院1987),雁翅方言属于吴语宣州片。本文通过两次田野调查,详细描写了雁翅方言的音
韩少功作为当代富于理性思考的著名作家,从一九七四年开始文学创作,小说代表作有《月兰》、《西望茅草地》、《爸爸爸》、《马桥词典》等,作为当代活跃于文坛的具有独特风貌和创
毛远明先生编着的《汉魏六朝石刻校注》(10册)收录了已公布及部分已出土尚未公布的汉魏晋南北朝石刻材料1400余通。这部着作对该时期石刻文献进行了一次全面的搜集、整理和研究
中国古代文化最显著的特点便是全息化同构。中国古代不像西方有严格细密的行业、专业划分,各行业或专业少有壁垒门户之见。无论何行业,皆可谈为文之理,文学批评对其他行业、学问
隐逸是中国文化史上独特而富有魅力的文化现象,隐逸诗则是抽映这种文化现象的一大载体.在现象的背后,有着深刻的内涵.该文试从唐代隐逸诗所透露的信息中揣摸其深层的文化内涵
柳青很注重小说语言的提炼,他广泛吸收中外经典名著中熔铸的文学语言,并将其与经过加工提炼的民间语言结合在一起,形成具有浓厚的生活气息又不失文雅的语言风格。柳青的小说是一