基于深度神经网络的中文实体关系抽取研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yh__nn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展使得网络中的数据量日益增加,这些数据之中通常含有丰富的有效信息,可供人们加以利用。为了充分挖掘其中蕴含的深层次知识,信息抽取任务顺时产生。通过信息抽取,人们能够方便得从原始数据中获取结构化的、容易理解的、可直接使用的数据。实体关系抽取正是信息抽取最为关键的子任务之一。传统实体关系抽取研究以流水线的方式处理此任务,首先识别实体,然后检测实体之间的关系。这种方法忽略了实体和关系之间的相关性,并导致错误传播。为了解除这一问题,本文实现了实体及关系的联合抽取方法,将句子编码后嵌入神经网络模型,同时执行实体识别和关系抽取子任务,生成可直接利用的知识,即实体关系三元组。另外,为了克服监督学习依赖于大量手工标注的数据的缺点,文本引入远程监督的方法,将非结构化文本与知识库对齐,以自动构建大量训练数据。神经网络具有强大的表达能力,在许多应用领域受到了研究者的关注,并在自然语言处理任务上取得了不错的成果。本文利用深度神经网络建模实体识别和关系抽取联合任务,进行了下述研究:1)提出了一种基于分层注意力结合语言模型的实体关系联合抽取算法HBLM。不同于传统的流水线方法,联合学习的方法同时执行实体识别和关系抽取两个子任务,能够更好的利用两个任务之间的交互,不产生冗余的信息。带有辅助训练目标的语言模型学习如何预测数据集中每个单词的周围单词,鼓励框架学习更丰富的语义合成特征,而无需额外的训练数据。此外,我们将分层的多头注意机制整合到联合提取模型中,以从可用文本中捕获重要的语义信息,学习不同表示子空间的相关信息。在公开的标准数据集上开展多组对比实验表明,HBLM模型明显优于现有主流模型。2)提出了一种基于多层强化学习的开放式实体和关系联合抽取算法OHRL。该模型集成了两个开放式提取器提取三元组构建知识库,并引入远程监督的方法,对齐知识库与非结构化文本,从而自动构建大量的数据集。同时,模型引入分层强化学习框架来处理通过远程监督扩展的数据集,对同一个句子通过两级的强化学习来实现整个信息抽取,高级别的RL抽取关系,低级别RL识别实体。公开的标准数据集上开展的实验结果表明,OHRL模型取得了显著的效果,能够适应远程监督扩展的数据集。3)构建了中文实体关系抽取的可视化系统。该系统主要聚焦于人物关系的挖掘,用户通过前端界面搜索相关人物,系统的后端查询NeO4j数据库中的实体关系三元组,并以人物关系网络图的形式进行可视化展示。系统定期自动爬取互联网的文本数据,从中挖掘实体关系信息,并存储到数据库中。
其他文献
当下,我国经济发展取得了举世瞩目的成就,成为全球第二大经济体,制造业规模居世界第一位。但是我国制造业的国际竞争力较弱,在全球价值链中的地位较低,面临着一种“大而不强”的困境。随着资源环境约束的加强,人口老龄化等社会现象显露,我国制造业以往依靠人口红利产生的比较优势逐渐丧失,制造业的出口竞争优势开始下滑,因此,我国必须重视这一问题,探索如何能够提升制造业企业的出口竞争优势,增强国际竞争力。生产性服务
随着大数据时代的到来,信息抽取技术成为从海量非结构化文本中获取关键信息的重要手段。同时,近年来,深度学习方法在自然语言处理研究领域获得了广泛关注,在大数据环境下它可以高效地辅助信息抽取技术达成目标。然而,在大部分特定领域(例如医疗领域、生物领域等)中,应用深度学习方法实现信息抽取任务时面临着标注数据稀疏、模型泛化效果差的困境,如何在训练数据不足的情况下缓解这种困境成为当前的一个研究热点。因此,本文
基于移动终端成像系统的荧光传感器具有可视化、低成本和快速便捷等优点,越来越受到化学和生物传感领域研究者的青睐,在环境有害物检测方面具有广阔的研究空间。然而,经典的基于单一荧光材料色度变化的可视化检测体系也存在光谱变化范围小,色度变化难以分辨,无法定量分析等不足,极大的限制了基于移动终端成像系统的荧光传感器的发展。本论文拟以天然水体中有害物质(如:氟离子、铀酰离子)的多色度变化的可视化检测为目标牵引
集中采购在企业实际运用中,一般是集团总部或二级企业采购管理部门将物质、工程和服务进行集中管理,包括对于直属企业生产建设也进行统一对外采购,进而将采购模式更规模和节约化。集中采购的目的是为了节约成本、让企业采购更为专业,进而达到规模效益,其将企业内外部资源和供应商进行整合,然后优化升级,进而让整个采购价值链运作效率更高,以此增强企业核心竞争力。本文以K公司集中采购管理作为研宄对象,采用多种方法相结合
合成孔径雷达(SAR)是在雷达系统基础上发展起来的一种技术,其在军用与民用领域均得到广泛的应用。新世纪以来,公共场合的安全常受到恐怖主义的威胁,因此在人员流动大的场所需要配备安检设备来保障安全。毫米波SAR发射的信号波长短,能穿透人体衣物,无电离辐射,被广泛应用于安检技术中。面向安检的三维成像技术现已成为安检领域中的重点研究内容,其需要对目标做全方位探测,并具备高分辨率、精确补偿、快速成像处理等特
云计算作为一种新兴先进的技术,凭借其可弹性扩容、费用低廉等优点,在各行各业中都得到了广泛应用。随着实体制造业和机器人技术的进步以及互联网产业不断向物联网产业靠拢,云计算的应用场景再一次得到拓宽。本课题利用云计算技术,根据实际需求,开发了一款云机器人交互系统软件,该系统包括服务端和客户端两部分,为远程监控机器人提供了许多实用功能,例如:服务端提供了虚拟网关接口,为开发人员快速接入云平台进行实验测试提
随着半导体工艺技术的发展,集成电路产品的性能越来越好,运算速度越来越快,成本也逐步降低。在先进的半导体工艺技术下,集成电路对静电放电的防护能力会下降很多,更容易因为静电放电而损伤。这会大大降低产品的成品率和可靠性。因此,为集成电路产品设计出合理的静电放电防护方案具有重要的意义。本论文对双界面卡芯片进行了全芯片静电放电防护设计,有效的解决了芯片的静电放电失效问题。论文首先从静电放电的基本模型出发,研
乡村聚落是指乡村地区人类聚集生产生活的一般场所,我国乡村聚落总体上有着数量多、规模小、内部空间布局无序分散、农村“空心化”趋势加剧等特征。随着我国城镇化速度的加快,建设用地十分短缺,土地利用不合理、闲置土地过多、一户多宅等现象逐渐凸显。农安县作为全国的农业大县,在《乡村振兴战略规划(2018-2022年)》和《吉林省乡村振兴战略规划(2018-2022)》的背景下,合理的乡村聚落空间布局不仅可以调
为了将我们国家在经济上比较落后的局面打破,顺应国际一体化贸易的各种相对激烈的竞争,关于水利这个领域同样需要贡献自己该有的力量。从提出“数字水利”之后,大家逐渐意识
内高压成形技术是空心类构件的加工工艺的未来发展方向之一,在汽车、航空、航天及船舶等零部件的制造工业广泛地被应用。对于轴线弯曲的异型截面类型的金属管状零件,通过采用