面向科技文献的双语术语抽取技术研究及应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:xiaoaixiaoaixiaoai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代信息传播速度加快,传播途径广泛。学者学术交流更加频繁,科技文献的发表数量增多,术语作为科技文献中能够反映研究领域和研究特点的载体,包含了大量专业知识信息。随着新方法的提出,科技文献中的术语数量不断增长,人工抽取术语需要一定的专业知识并且耗时耗力。因此,快速有效进行术语抽取具有重要意义。本文针对句子级别平行语料研究双语抽取的方法,通过神经网络和传统机器学习的方法,使用无标注语料和领域词典完成训练语料的构建,设计方法完成对模型性能的评价,将术语抽取方法结合机器翻译中的应用验证方法的有效性。最终,实现了双语术语抽取系统。本文的研究内容包括:(1)在单语术语抽取方面,基于神经网络方法进行术语抽取的研究。通过单语词典和无标注语料构造训练语料的方式实现单语抽取模型的训练,设计方法使用外部知识平台验证神经网络方法抽取的有效性。(2)在双语术语抽取方面,在平行语料的单语术语抽取结果的基础上,通过双语词典标注的少量信息,使用多种特征选取候选术语翻译对,使用半监督学习进行双语术语对齐。(3)将双语术语抽取方法结合实际应用方面,通过双语抽取技术提升统计机器翻译的翻译质量。在训练语料中使用双语对齐方法扩充双语术语词典,使用单语抽取在待翻译语料中标注出可替换的术语词,使用双语术语词典和标注结果增加机器翻译的先验知识,进一步提升机器翻译效果。(4)在工程实现方面,设计并实现一个双语术语抽取系统,整合单语抽取和双语对齐功能,完成模型训练、术语抽取以及结果的可视化。本文使用计算机、自动化领域的科技文献数据集进行实验和方法对比,验证了术语抽取方法的可行性和有效性。
其他文献
古代家训作为中国文化的一个重要的组成部分,起源于南北朝时期。朱子对传统家训进行了创造性的改造,使其推广普及有了可能。朱子家训内涵为:倡导君臣有义、家庭亲睦、人际和
随着改革开放的不断深入,我国经济全面发展,人民生活水平逐步提高,汽车进入家庭已经成为十分热门的话题,整个汽车产业受到了前所未有的关注,汽车消费市场和汽车产业发展的政
<正>技术简介目前鲟鱼的饲料投喂方法是借鉴硬骨鱼类的投喂模式,但由于两类鱼在代谢率、饲料转化率和饲料利用能力上的不同,硬骨鱼所用的常规投喂模式可能并不适用于鲟鱼这类
该文以韦纳动机归因理论为理论基础,以120名高中生为研究对象,以英语水平测试、自我归因问卷调查、英语学习行为与学习成败状况访谈为测量工具,对高中学生英语学习成败自我归
以丹江口水库为例,考察水库底泥在不同温度、扰动和曝气等条件下,总氮、硝氮、氨氮和亚硝氮的释放规律。设置模拟反应器,探究高效好氧脱氮微生物强化消除水库底泥内源氮污染
在积极心理学背景下,积极思维的研究成为热点。儿童积极思维的研究主要采用情境故事访谈法考察儿童积极思维发展的本质,即儿童积极思维与心理理论密切相关;儿童积极思维的发
人纹污灯蛾Spilarctia subcarnea Walker(鳞翅目Lepidoptera,灯蛾科Arctiidae),又名红腹白灯蛾、红腹灯蛾、桑红腹灯蛾和人字纹灯蛾。杂食性,是多种农作物的重要食叶害虫,主要为害
伴随着互联网的快速发展,社会对会计人才培养提出了更高的要求,如何能将互联网更好地应用到会计专业教学已经成为教学方式改革的重点。本文首先阐述了现阶段人才培养的现状,