论文部分内容阅读
互联网时代信息传播速度加快,传播途径广泛。学者学术交流更加频繁,科技文献的发表数量增多,术语作为科技文献中能够反映研究领域和研究特点的载体,包含了大量专业知识信息。随着新方法的提出,科技文献中的术语数量不断增长,人工抽取术语需要一定的专业知识并且耗时耗力。因此,快速有效进行术语抽取具有重要意义。本文针对句子级别平行语料研究双语抽取的方法,通过神经网络和传统机器学习的方法,使用无标注语料和领域词典完成训练语料的构建,设计方法完成对模型性能的评价,将术语抽取方法结合机器翻译中的应用验证方法的有效性。最终,实现了双语术语抽取系统。本文的研究内容包括:(1)在单语术语抽取方面,基于神经网络方法进行术语抽取的研究。通过单语词典和无标注语料构造训练语料的方式实现单语抽取模型的训练,设计方法使用外部知识平台验证神经网络方法抽取的有效性。(2)在双语术语抽取方面,在平行语料的单语术语抽取结果的基础上,通过双语词典标注的少量信息,使用多种特征选取候选术语翻译对,使用半监督学习进行双语术语对齐。(3)将双语术语抽取方法结合实际应用方面,通过双语抽取技术提升统计机器翻译的翻译质量。在训练语料中使用双语对齐方法扩充双语术语词典,使用单语抽取在待翻译语料中标注出可替换的术语词,使用双语术语词典和标注结果增加机器翻译的先验知识,进一步提升机器翻译效果。(4)在工程实现方面,设计并实现一个双语术语抽取系统,整合单语抽取和双语对齐功能,完成模型训练、术语抽取以及结果的可视化。本文使用计算机、自动化领域的科技文献数据集进行实验和方法对比,验证了术语抽取方法的可行性和有效性。