双语平行句对的获取与语料库的建立

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:my888162
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网信息的爆炸式增长给了统计机器翻译新的契机,众多研究团体和商业机构开始从互联网上获取大规模的双语语料。机器翻译模型的优劣与语料的规模和质量息息相关,从互联网上得到的数据规模也远大于使用传统的人工采集的途径,但如何确保语料的质量并建立机器翻译可用的语料库则成为首要考虑的问题。在机器翻译领域,基于句子间多特征融合的句子对齐方法已臻成熟,可以运用在质量较好的语料上,得到较好的结果;对于机器翻译系统效果的评价,已有多种常用技术,其中BLEU自出现以来一直是学者们采用的主流评测技术,它通过判断人工给出的参考翻译与待评测翻译结果的相似程度得到评估得分;在文本分类领域,对特征抽取和分类算法,也有针对不同情况的不同相关方法。本文的主要研究内容集中在上述三个方面。首先对于双语平行语料的句子对齐,我们采用借鉴TFIDF思想的一种多特征融合的句子对齐技术,并进行了更能适应噪声较多的互联网语料的改动,加入了段落对齐的模块,对长文本进行分割、存在噪声的文本进行头尾对齐,很好地解决或者削弱了噪声的问题;然后,对于语料的质量评估,我们用在线翻译系统的结果替代了人工翻译作为参考翻译,利用BLEU算法进行质量的评估得到分值,相较人工给出翻译的方法更加高效,使其能够运用在大规模语料上;最后,对于领域分类,我们尝试了多种特征抽取和分类算法,找到了更适于互联网语料的组合。在这三个方面的尝试,都取得了一定程度的效果。通过实验结果,我们证明了我们所使用的双语平行语料库建立的相关技术,即对齐方法、质量评估方法和领域划分方法,在互联网语料上的可用性。
其他文献
随着互联网的发展,传统关系型数据库(RDBMS)已不能满足大数据时代所要求的系统水平扩展的需要。NoSQL存储提供了一个具有巨大的可扩展性、容错性、可用性、可靠性的下一代数据
近年来,基于位置的服务(Location-based service,LBS)在人们的日常生活中得到了越来越多的应用,其中隐藏的位置隐私安全问题也逐渐引起人们的关注:用户必须向位置服务提供商(如Go
现阶段计算机信息化的迅速发展,一些大型的复杂武器装备已经不能使用纸型技术资料手册很好的来描述其信息。而交互式电子技术手册(Interactive Electronic TechnicalManual,IETM
吸烟成瘾是最常见的成瘾之一,因为吸烟去世的人每年有600万,其中通过直接吸烟失去生命的人有500多万,还有一些是通过吸二手烟的不吸烟人群,大约有60多万。如果不抓紧采取措施,再过
随着互联网的普及和高校信息化的建设,各大高校都拥有自己的BBS网络,学生在网络上进行交流,发表自己的观点和意见,表达思想等,舆情的影响和规律都不容忽视。然而,对敏感和突
随着计算机网络与无线通信技术的飞速发展,各种无线通信网络与人们的生活和工作联系得越来越紧密,同时人们对网络的多样化服务以及传输质量提出了更高的要求。而在无线通信网
安全多方计算(Secure Multi-party Computation,以下简称SMC)是指解决一组互不信任的参与方之间保护隐私的协同计算问题。SMC要确保输入的独立性,计算的正确性,同时不泄露各
在IT系统中,规则引擎作为一种灵活的组件能够将业务规则从硬代码模块中剥离出来,实现了业务规则的单独创建与维护。业务规则一般是指与业务相关的规章制度、操作规范、行业标准
对于竞争紧张而激烈的现代社会来说,数据信息正以指数级的速度增长着。在美国911事件中,由于关键数据丢失而破产的企业不计其数。在日常工作中,来自人为操作失误、自然环境破坏
随着计算机网络的迅速发展,我们可以获得巨大的图像资源,同时也面临着计算机视觉研究的巨大挑战,即如何找到有效的方法来自动标注图像,减少手工标注所消耗的人力资源和人为倾向性