可比语料中双语多词术语互译对抽取方法研究

被引量 : 0次 | 上传用户:weiba516898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语术语互译对抽取是自然语言处理领域中一个重要的研究课题。作为基础资源,双语术语互译对被广泛应用于机器翻译、信息抽取、双语术语词典编撰以及跨语言信息检索等领域。早期的术语互译对抽取工作主要在平行语料上开展,存在语料规模不足等问题。与通过人工翻译或者法规文件等获得的平行语料库相比,可比较语料库具有代价低、来源广等特点。目前,基于可比较语料的研究越来越多,从可比较语料库中挖掘词级别的信息已成为研究的热点。本文在可比较语料的基础上进行双语多词术语互译对的抽取工作。首先从可比较语料库中分别抽取中文多词术语和英文多词术语,然后通过计算中英多词术语之间多个特征值得到术语匹配对,最后使用阈值限定法过滤正确的术语对。其中,在计算术语匹配对时,本文使用最小化样本风险算法来调节特征权重。本文设计和实现了一个多词术语互译对抽取系统,其中,中英可比语料库作为系统的输入,中英多词术语互译对集合作为系统的输出。系统主要分为3个模块:(1)多词术语抽取模块;(2)基于多特征的互译对相似度计算模块;(3)多特征融合和过滤模块。多词术语抽取模块分别从对应的单语语料库中抽取中文多词术语和英文多词术语。互译对相似度计算模块,使用翻译模型特征、词频同现特征、中英匹配特征、英中匹配特征和词长度特征计算中英多词术语之间的匹配度。多特征融合和过滤模块,使用最小样本风险算法(minimum sample risk, MSR)调整各个特征的权重,然后将各个特征值加权求和,结果作为互译对最终的相似度。每个中文多词术语和多个英文多词术语比较,构建多个候选中英多词术语互译对,选择相似度最高且大于阈值的互译对作为正确结果。本文的主要贡献:(1)抽取多词术语时,对现有算法进行改进,并依据语言学知识制定了若干过滤规则,提高了术语的抽取效果;(2)匹配互译对时,将多特征线性融合模型引入到多词术语互译对的抽取工作中,选择了适当的特征,并使用判别学习算法调节特征权重,最后实验验证了本文方法的有效性。
其他文献
<正>天麻是我国的一种珍贵药材。其性味功能:甘、微温、祛风、镇痉。主治高血压、眩晕、口眼歪斜、风湿性腰膝痛、四肢麻木、小儿惊癫、神经衰弱、失眠健忘等症。尤对中枢神
<正>2016年4月6日,我国首颗微重力科学实验卫星——实践十号成功发射。它是空间科学先导专项首批科学实验卫星中唯一的返回式卫星,也是单次搭载空间实验项目最多的卫星,专门
<正>近年来,随着石油化工产品的广泛运用,原油价格不断攀升,每吨高达几千元,这对许多不法分子来讲非常具有诱惑力,盗窃原油、油田电力、油田物资,私接天然气现象较为严重,油
目的:研究大鼠灌胃缩泉胶囊后,益智黄酮(杨芽黄素、伊砂黄素、白杨素、山奈素和芹菜素-4’,7-二甲氧醚)在胆汁中的物质形式。方法:雄性Sprague Dawley大鼠胆管插管手术完毕后
目的了解新罗区小学生营养状况及其影响因素,为开展营养不良与肥胖防治工作提供依据。方法随机抽取新罗区5所小学,对2013、2014、2015年学生的营养状况资料,用SPSS 19.0软件
<正>设置一定的机构是开展相应工作的保证。当前在社会工作逐步被人们所认识的情况下,如何在医院设置医务社会工作机构是一个值得研究和关注的问题。根据上海东方医院的经验,
<正>电视剧是消费量最大的媒介产品之一,其中蕴含的丰富的暴力内容和意识形态也引发了学者的普遍关注,而青少年不仅是媒介的重要消费者,更被认为是容易达成最大传播效果的"靶
目前,反射裂缝是旧水泥混凝土路面加铺沥青面层常见的的病害之一。针对这一常见的病害问题,国内外专家学者和工程技术人员做过很多研究,但在国内还未形成系统、合理的技术措
<正>随着网络技术的日新月异,新闻传播发生了天翻地覆的变化,新的媒体形式层出不穷,媒体终端可实现的功能越来越强大,媒体的界限迅速模糊,媒体融合成为新闻传播的必然趋势。2