论文部分内容阅读
近年来,互联网信息的爆炸式增长给了统计机器翻译新的契机,众多研究团体和商业机构开始从互联网上获取大规模的双语语料。机器翻译模型的优劣与语料的规模和质量息息相关,从互联网上得到的数据规模也远大于使用传统的人工采集的途径,但如何确保语料的质量并建立机器翻译可用的语料库则成为首要考虑的问题。在机器翻译领域,基于句子间多特征融合的句子对齐方法已臻成熟,可以运用在质量较好的语料上,得到较好的结果;对于机器翻译系统效果的评价,已有多种常用技术,其中BLEU自出现以来一直是学者们采用的主流评测技术,它通过判断人工给出的参考翻译与待评测翻译结果的相似程度得到评估得分;在文本分类领域,对特征抽取和分类算法,也有针对不同情况的不同相关方法。本文的主要研究内容集中在上述三个方面。首先对于双语平行语料的句子对齐,我们采用借鉴TFIDF思想的一种多特征融合的句子对齐技术,并进行了更能适应噪声较多的互联网语料的改动,加入了段落对齐的模块,对长文本进行分割、存在噪声的文本进行头尾对齐,很好地解决或者削弱了噪声的问题;然后,对于语料的质量评估,我们用在线翻译系统的结果替代了人工翻译作为参考翻译,利用BLEU算法进行质量的评估得到分值,相较人工给出翻译的方法更加高效,使其能够运用在大规模语料上;最后,对于领域分类,我们尝试了多种特征抽取和分类算法,找到了更适于互联网语料的组合。在这三个方面的尝试,都取得了一定程度的效果。通过实验结果,我们证明了我们所使用的双语平行语料库建立的相关技术,即对齐方法、质量评估方法和领域划分方法,在互联网语料上的可用性。