基于卷积神经网络的实体关系抽取研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:baohuse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,互联网上产生了大量的非结构化的文本数据,其中包括:新闻,博客,政府文档,聊天日志等。如何帮助人们快速地从中获取有价值的信息成为计算机相关领域学者所关注的问题。实体关系抽取正是为了解决这样一个问题,它的主要任务是识别非结构化文本中出现的实体并确定实体之间的语义关系。目前基于监督学习的关系抽取方法已经取得了较好的效果,但这类方法比较依赖自然语言处理工具提供分类特征,而这些工具往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。为了避免过多依靠复杂的特征工程,本文提出利用卷积神经网络来解决关系抽取问题,其将会自动从句子中学习特征,以构建句子的分布式表示作为关系分类模型的输入,从而最小化对一些NLP处理工具和资源的依赖。并在此基础上实现了面向互联网新闻文本的企业实体关系的抽取。本文的工作主要包括以下几个方面:1)针对互联网新闻当中存在的企业实体关系,本文提出了基于Bootstrapping技术构建关系语料库的方法,该方法克服了纯人工标注过程中费时费力的缺点;2)针对传统词袋模型在表征句子时缺乏语义信息以及未考虑词的位置信息的缺陷,本文提出了基于词向量加权和基于卷积神经网络的方法用于构建紧凑且具有语义的句子的分布式表示,作为关系分类模型的输入;3)在前几部分的工作基础上,结合网页正文提取、命名实体识别等关键技术实现了面向互联网新闻文本的企业关系的抽取。
其他文献
电化学制氢技术可以将电能转化为易于储存与运输的化学能,这对于新型能源的开发与利用有着巨大的意义。过渡金属磷化物(TMPs)由于其独特的物理化学性质,展现出优异的电化学活性
为保证高聚物粘结炸药(PBX)应用的安全性和可靠性,有必要对其进行长期监测。声发射作为一种实时监测技术已被应用于PBX损伤监测研究,但是目前该技术还不能满足面向PBX工程应
具有CHA型晶体结构的Cu-SSZ-13分子筛催化剂如今在柴油车脱硝领域备受关注,其合成方法主要有两种,离子交换法和一步合成法。一步合成法因其合成路线相比离子交换法十分廉价而
卟啉是以卟吩作为母体的化合物,是卟吩环的同系物和衍生物加上不同取代基的通称。卟啉是一种具有芳香性的16中心18电子大π共轭体系。当卟啉中心氮的两个质子被金属离子取代
为适应当前知识经济的迅猛发展和全球经济一体化程度的不断加深,中国不断加快创新型国家的建设步伐。作为知识载体的知识型员工是创新的动力源泉,已然成为企业获取竞争优势的
现今将竹纤维作为新兴的高性能天然植物纤维应用于复合材料领域,展现出广阔的应用前景和巨大的市场价值。目前工业上最常见的制备竹原纤维热塑性复合材料的工艺有两种。①无
卡罗尔·希尔兹(Carol Shields,1935-2003)是二十世纪六十年代以来加拿大文坛颇有影响力的女作家,其创作题材聚焦于家庭生活,以刻画普通人的喜怒哀乐见长,同时致力于对叙事技巧的完善与钻研。本文选取希尔兹九十年代以后创作的长篇小说为重点分析对象,以作家在作品中使用的叙事方法为角度,从情节、话语和视角以及文体特征三个方面,透视曾为家庭主妇的作家希尔兹的家庭伦理观。希尔兹钟爱家庭体裁,她
地震应急产品作为震中位置、应力状态、历史地震活动以及震源机制等信息的载体,在开展震情动态跟踪、震后应急救援以及地震科学研究等工作中具有十分重要的意义。本文针对全
偏微分方程最优控制问题是数学中非常活跃的一个研究领域,大多数最优控制问题可以用下面的抽象数学模型来表示:minu∈Uad{J(u,y)}满足A(y,u)=0。其中u是控制变量,y是状态变量,Uad称为约束控制集,A(y,u)是偏微分方程,我们称它为状态方程。有限元方法在偏微分方程最优控制问题中的运用已有很深入的钻研,其在收敛性和误差分析以及数值计算等方面都有极其丰富的成果。在众多有限元方法类型中,
2017年中央一号文件指出,强化科技创新驱动,引领现代农业加快发展需要整合科技创新资源,不断加强农业科技研发,加快农业供给侧结构性改革,提高农业科技资源的配置效率与配置