基于神经网络的开放信息抽取及其应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:jianbbk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开放信息抽取技术旨在从无结构文本中抽取结构化的信息三元组,可以从海量文本数据中自动获取有价值信息,是解决信息爆炸问题的重要方法。目前,该技术已被广泛应用于工业界,并在众多NLP下游任务中起到了关键作用。当前的开放信息抽取系统多为基于神经网络的序列标注模型。然而,这类方法无法准确标注歧义实体的信息类别,且由于抽取速度较为缓慢,无法处理超大规模数据与用户的实时请求。另一方面,开放信息抽取技术在问题引导的文本摘要领域的应用仍缺乏足够的研究。现有的文本摘要方法多采用基于神经网络的文本生成模型,无法保证生成摘要信息的事实正确性与信息的覆盖率。据此,本研究提出了两个新的开放信息抽取模型,并提出了一个基于开放信息抽取技术的问题引导的文本摘要算法。具体来说,本文的主要贡献有:1.针对当前开放信息抽取方法无法识别歧义实体的问题,本文提出了基于多级别特征的开放信息抽取模型。首先,该模型提出了谓语特定的词嵌入层在识别实体信息边界过程中引入全局语义信息;其次设计了互注意力机制,使用跨度分类方法判断实体信息的类别。本文提出的模型在OIE2016等数据上取得了最优的实验效果。2.针对当前神经网络抽取算法抽取速度缓慢的问题,本文提出了基于滑动窗口匹配算法的开放信息抽取模型。该方法首先采用简化的SPO标签标注文本中的所有信息,并设计了基于滑动窗口的分组算法将信息匹配成组。本方法显著降低了抽取过程中神经网络的调用次数。在SAOKE数据集上的实验证明,本模型在不损失抽取精度的前提下显著提高了抽取效率。3.基于以上抽取算法,针对当前文本摘要方法无法保证生成信息正确性与信息覆盖率的问题,本文提出了知识图谱增强的问题导向文本摘要模型。首先,该模型使用信息抽取算法构建知识图谱,并提出图自注意力机制在摘要生成过程中有选择地使用知识图谱中重要的部分。其次,本模型使用条件子注意力模块根据输入问题针对性生成文字摘要。实验结果显示,本方法在Debatepedia数据集上显著地提高了摘要生成的质量。
其他文献
利用管道进行物料运输,具有输送量大、结构简单和安全可靠等优点。抛光打磨车间和机加厂房等典型劳动密集型作业场所在生产过程中会产生大量的金属粉尘,这些粉末在通过通风排尘管道排除的过程中会产生沉积,需要进行定期清理。本文的研究对象是一款由摆动气缸驱动的并能适应不同管径的管道机器人,用于搭载清灰装置进行管道清理。主要的研究工作如下:(1)确定可变径管道机器人的设计方案。总结不同管设计方案的优缺点,根据本文
RV减速器由于其独特的优势,在工业机器人领域逐渐替代谐波减速器已经成为趋势。随着《中国制造2025》的发布以及制造强国战略的全面推进实施,工业机器人在我国将会出现一个井喷式增长需求。然而,在工业机器人的核心部件RV减速器领域,尤其在性能和工作寿命方面,国内和国外存在较大差距。润滑剂作为RV减速器的核心组成成分,其性能将直接影响RV减速器的振动和工作寿命。然而,在该领域我国研究颇少。针对国产某型号R
近年来,移动互联网迅速发展,日益增长的移动数据流量给蜂窝通信网络带来了严峻的挑战。第五代移动通信(5th Generation,5G)是最新一代蜂窝移动通信技术,已经成为学术界和工业界探讨和应用的热点。5G的性能目标是提高数据速率、减少延迟、降低成本和提高系统容量等等。在5G众多关键技术之中,大规模多入多出(Multiple Input Multiple Output,MIMO)技术是其中之一,相
文本生成,将不同形式的输入转化为文本形式的输出,赋予了计算机与人交流的能力,是近期自然语言处理方向研究的热点领域。受计算能力的快速发展,基于深度学习的文本生成技术取得了成功。随着互联网产业的蓬勃发展,文本生成的诸多方向,如图片描述生成、神经机器翻译,文本摘要也得到了广泛的运用。大量场景为研究者提供了扎实的数据基础。在这些方向中由于贴近用户需要,个性化文本生成具有很强的实用性和社会价值。尽管对于一般
我国地形复杂,资源丰富,需要运用很多高效可靠的物探系统。本文提出了一套基于虚拟仪器技术的地震反射波成像系统方案,采用模块化的地震波数据处理流程来对反射波进行介质速度分层成像,方案中还采用两种数字滤波器的方法来对地震反射波中的噪声、直达波等干扰进行滤除,并基于模块化的硬件设计和虚拟仪器开发技术,研制了整套硬件和软件系统。本文的主要内容如下:(1)结合地震波的特征,研究并仿真了地震子波在反射系统里传输
自动驾驶场景中存在着丰富的时空数据和动态行为交互,使得自动驾驶场景充满复杂性。系统的安全性面临着严重的挑战。近年来,人们尝试使用场景建模、仿真技术对自动驾驶场景的动态行为进行建模、分析,但自动驾驶场景的建模语言及支撑工具依然匮乏,同时也缺少使用形式化验证技术对模型进行验证分析。针对以上问题,本文提出一种面向汽车自动驾驶领域的场景建模语言(Scenario Modeling Language,SCM
淀粉样多肽经过非正常折叠聚集成纤维,随后聚集成淀粉样沉积被认为与多种人类神经性疾病有关,如II型糖尿病(Type2 diabetes,T2D),阿尔茨海默病(Alzheimer disease,AD)和帕金森病(Parkinson’s disease,PD)等。其中,II型糖尿病是由于胰岛素协助葡萄糖进入细胞代谢的功能下降,胰岛素分泌相对不足,或机体对胰岛素反应性下降,导致血糖升高,约占糖尿病患者
随着机器学习的广泛应用,机器学习算法已经不再是互联网公司的专有技术,越来越多的非互联网公司通过第三方运用机器学习算法来解决问题。恶意的攻击者会通过操纵第三方机器学习训练过程,进而达到攻击的目的。为了更好的维护受害者与第三方的权益,提高机器学习算法的稳健性,本文针对机器学习算法的攻击与防御问题进行了深入研究:1.线性回归数据中毒攻击:本文通过在现有攻击模型中改进和重新定义攻击者的目标,建立了新的基于
随着大数据时代的发展与应用,推荐算法及其系统成为电商、短视频、新闻、金融等诸多领域的核心技术架构,推荐系统的重要性不言而喻,研究推荐系统的目标在于针对不同场景数据需求,如何设计更好的特征,并将其运用到设计的算法模型,使得推荐效果尽可能达到多样化目标的整体最优或目标侧重的改进。与此同时,随着深度学习的发展突破传统模型与数据量级的算力性能限制,带来了更多优化与算法升级的可能性,如何利用其实现匹配用户的
自然界中的氮循环是最基本的物质循环之一,传统燃料的燃烧和氮素肥的普及,导致大量氮-氧化物(NOX)释放到大气中,氮循环系统已严重失衡。NOX极易被水和碱性吸收,主要形成NO3-水溶液。长期摄入含有NO3-污染的地下水是高血压和蓝婴症等疾病的主要诱因。但NO3-在水溶液中性质稳定,所以降解NO3--N是亟待解决的难题。电化学还原技术具有方便快捷,无二次污染,投资成本较低等优点,在化学工程中被较广泛地