基于混合神经网络的英文文本蕴含识别研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ilqiqi2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的广泛应用和互联网技术的快速发展,当今社会正以飞快的速度向大数据时代前进,以电子文档形式存在的文本数据也与日俱增。仅仅让计算机处理文本数据的表面信息已经远远不能满足现代人们的需求,如何让计算机深入地理解自然语言文本,并且准确、高效地从中获取有价值的信息变得越来越重要。文本蕴含识别是一项判断文本之间定向语义关系的任务,要求对于给定的两段文本,文本T(Text)和假设H(Hypothesis),判断假设H的语义是否可以由文本T推断出来。文本蕴含识别旨在促进文本的语义研究,提高计算机对自然语言文本的理解能力,具有非常重要的研究价值和应用价值。本文主要研究面向英文的文本蕴含识别方法,通过对该任务在语义表示和蕴含方法方面存在的问题进行深入地研究,提出了基于胶囊的英文文本蕴含识别方法和融合胶囊与BERT的英文文本蕴含识别方法。其中基于胶囊的英文文本蕴含识别方法在SNLI、MultiNLI-matched、MultiNLI-mismatched和SciTail数据集上的准确率分别为89.2%、77.4%、76.4%和78.4%;融合胶囊与BERT的英文文本蕴含识别方法在SNLI和SciTail数据集上的准确率分别为89.4%和86.3%。本文的具体贡献可以归纳为以下几点:1.提出基于胶囊的英文文本蕴含识别方法。该方法在单词的语义表示方面,使用卷积神经网络从字符层面提取单词的局部特征信息,一定程度上缓解了随机初始化未登录词所带来的语义特征不明显问题;其次在蕴含识别过程中,通过结合交互注意力机制分别为每一种蕴含关系构建一个胶囊,以分类别学习的方式完成最终蕴含关系的识别。2.提出融合胶囊与BERT的英文文本蕴含识别方法。该方法在基于胶囊的英文文本蕴含识别方法的基础上,进一步结合了预训练BERT模型对文本T和假设H编码所得到的聚合特征来判断两者之间的蕴含关系。3.在三个标准数据集上进行了验证实验,实验结果表明所提方法在该领域与其他先进的英文文本蕴含识别方法具有可比性。对注意力关系矩阵的可视化分析也验证了胶囊在英文文本蕴含识别任务中的有效性。4.根据融合胶囊与BERT的英文文本蕴含识别方法设计并实现了相应的英文文本蕴含识别系统。该系统包括数据预处理模块、神经网络模块、集成学习模块,能够实现对给定的文本对进行蕴含关系识别。
其他文献
<正> 茯苓,为多孔菌科植物茯苓菌的干燥菌核,大小不一,轻重悬殊。小者仅半公斤左右,大者可达十几公斤,有的甚至达几十公斤以上。我国北起吉林、辽宁、南至云南、贵州的丛林中
期刊
语文教师教学用书是中小学语文教师备课与提升自我专业水平的重要参考资料,它在中小学语文教学实践中发挥着不可忽视的作用。教学建议模块是教师教学用书中操作性很强的一个
<正>有一场革新,正在改变世界、改变中国。2008年以来,国家及各地出台新能源汽车产业政策超过200项,新能源汽车产业发展,风正劲。2015年,国务院办公厅出台文件《关于加快电动
将众包作为一种新型的科技合作形态,首先论述了它的出现及其必然性,然后详细分解了这种新型科研合作形态的运行模式,并论及它的影响、优势和目前存在的主要问题。最后,结合我
以一款城镇客车为研究对象,针对其车身壁板振动剧烈的问题,利用有限元法对其结构振动进行相关研究。对车身进行模态计算和谐响应分析,得到车身结构的固有频率、模态振型和位
1960—62年初步調查发現:桃树腐烂病疤主要分布在主干与主枝上,其中主枝基部(五(木义)骨)占60%;病疤多为西南向;流胶为发病后的共同表現;病害可深入皮层与木质部。各主要栽培
原花青素是一种天然的自由基清除剂和抗氧化剂,具有多种生理功能。文中通过单因素和正交试验确定了黑果枸杞中原花青素的最佳提取条件:反应温度50℃,料液比(g∶m L)1∶10,乙
研制了一种利用放电等离子体灭菌的空气消毒净化机 ,它采用一种独特的横置多重式静电场装置 ,可在有人情况下连续消毒杀菌 ,实践应用表明效果良好
"有教无类、因材施教、终身学习、人人成才"的中国教育梦的提出,从教育权利、教育方式、教育体系、教育结果等方面为我们展现了一个完整的"育才梦"、"成才梦"。继续教育作为
采用亚临界水萃取板栗蛋白的方法,研究水料比、提取温度、提取时间、pH、提取压力对板栗蛋白提取率的影响。通过单因素试验和正交试验优化出板栗蛋白提取率的最佳工艺参数。