俄语基本名词短语识别及翻译

被引量 : 0次 | 上传用户:fangwd_clily
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基本名词短语是一种结构相对简单的句法单元,其内部包含了相对完整的语义信息,在句子构成中广泛使用且占有重要地位。实现对不同语言基本名词短语的自动识别和翻译,能够在很大程度上为理解不同语言提供帮助和参考。俄语基本名词短语的识别和翻译工作对于跨语言检索以及俄汉机器翻译等应用具有直接的指导意义和应用价值。本文将俄语作为研究对象,学习并总结俄语的语言特点和语法特征,基于规则与统计方法相结合的思想,实现了俄语基本名词短语的识别,并重点针对俄语语料的标注代价问题提出了一种自动构建CRF训练语料的方法。另外,在传统的统计机器翻译流程中,通过将隐含在词形变化中的俄语语言特征显式表示,实现了俄语基本名词短语翻译质量的提升。完成了一个俄语基本名词短语识别和翻译的完整系统。主要工作包括:第一,基于规则与统计相结合的思想,实现了俄语基本名词短语的识别。并且针对俄语语料缺乏且标注代价大的现状,提出了一种自动构建训练语料的方法。该方法基于来源于网络的俄汉词典资源,在统计得到的俄语基本名词短语词性搭配模式库指导下,自动构建CRF所需的训练语料,进而使用训练得到的模型在模式库基于最大正向匹配原则进行的BaseNP候选项标注基础上,实现俄语BaseNP的识别。第二,提出了一种基于隐知识的俄语基本名词短语翻译方法。所谓“隐知识”,是指以词形的变化隐含在俄语单词中的语言特征,例如词性、格、性、数等。将这些语言特征显式的体现在语料当中,然后基于加入了特征的语料进行翻译,可以从很大程度上解决形态变化丰富的俄语语料数据稀疏的问题,并能在一定程度上改善词对齐的结果,最终提升翻译系统对俄语基本名词短语的翻译质量。本文的识别方法在节省语料标注代价的基础上对于俄语基本名词短语的识别结果F值为84.14%。显式使用语言特征的翻译方法对于俄语基本名词短语的翻译结果BLEU值为0.4257,较传统的基于短语的机器翻译方法提高了大约10个百分点。
其他文献
1.教师为主导,学生为主体观念下的课堂教学设计“以教师为主导,学生为主体”是新课程观念下指导课堂设计和教学的具有指向性和共识性的原则.王策三指出,“教师的主导作用要与
口服疫苗可有效激发肠粘膜免疫,给药途径简单、安全,且种类繁多,主要包括菌苗、病毒疫苗、蛋白质亚单位疫苗、合成肽疫苗、基因缺失疫苗、DNA疫苗及转基因植物疫苗等,口服疫
傅玄是中国历史上著名的政治家、思想家和文学家。以往有学者认为傅玄思想儒、墨、道、法兼而有之,是杂家者流,实际上,其政治思想的核心和主体部分仍是儒学,可以用“通儒达道
以松香、蓖麻油与二乙烯三胺在一定条件下合成咪唑啉类MB缓蚀剂,由于松香型咪唑啉和蓖麻油型咪唑啉,化学结构和相对分子质量各异。两者相互补充,能够在金属表面形成致密的保
<正>当前,一些企业执行每周工作六日休息一日的制度,这种情况是否违法?现实中有哪些违法加班现象?违法加班现象一超时加班《劳动法》规定:"用人单位应当保证劳动者每周至少休
采用莫尔法与自动电位滴定法测定自来水中氯离子含量,并进行精密度和加标回收率实验。结果表明,莫尔法和电位滴定法均能满足自来水中氯离子含量的分析要求,其中自动电位滴定
<正>以青春剧见长的导演赵宝刚在推出《北京青年》后,他的新剧《老有所依》关注点落在了养老话题上,但他强调,这仍是"青春"三部曲的延续。是的,当"北京青年""自己的青春自己
当前国内汽车销售价格持续下调,降低汽车制造成本成为各企业应对市场的主要方法,汽车制造工厂面临着极大的降本增效的压力。为解决这一问题,制造工厂不断提高生产效率,同时还
近年来,中国经济呈现出飞速发展的态势,但在中国经济发展的背后,也蕴藏着诸多问题,最大的问题在于经济快速发展所带来的严重的环境污染问题。换言之,中国经济快速发展是以牺