基于知识图谱的语义信息抽取方法及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fogstorm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机性能的不断提升与互联网文本所蕴含的信息的快速增长,将Web信息结构化、知识化,构造由概念、实体、关系所构成的语义网络——知识图谱,并基于此构建自动问答系统,已成为大势所趋。本文基于知识图谱的语义解析问题展开研究。针对语义解析的特点,本文将其分为实体检测和关系预测两个子任务。为了解决实体识别过程中,使用BiLSTM会造成“标记混乱”的情况,本文构造了BiLSTM+CRF网络结构,利用CRF在输出层添加了约束条件,一定程度上避免了该问题,并在SIMPLEQUESTION数据集上取得了93%的F值。针对实体链接过程中出现的实体非对齐问题,本文提出了基于启发式的实体链接算法,可以显著降低噪声的影响,比原有方法的F值提高了3%。在关系预测任务中,大多数现有的关系预测方法都遵循所谓的编码器比较框架。它们将问句和知识图谱关系映射到公共的向量空间,这可以方便地计算问句向量和关系向量之间的相似性。然而,这不可避免地会失去原始单词交互信息。为了保留更多原始信息,本文提出了ARNN-SMCNN模型,旨在利用卷积神经网络(CNN)和循环神经网络(RNN)的互补优势来捕获全面的分层匹配信息。该模型利用RNN模型的序列建模性质来获取语义级别相关性,并使用注意力机制来获取问句的不同表达方式。同时,利用基于相似度矩阵的CNN来提取文字级别词汇交互匹配信息。本文利用提出的模型在SIMPLEQUESTION数据集上进行实验,验证了ARNN-SMCNN模型的有效性。同时,本文还针对知识图谱构建问题,完成了对实体、关系的标注和抽取工作,并以构建金融领域知识库为例,设计了包括数据源获取、公司机构实体抽取、商业关系抽取等领域知识库构建流程。针对金融领域实体识别,本文首先分析了特征构造方式对于条件随机场模型结果的影响,并验证了本文抽取的特征的作用。此外,还将主动学习的思想应用于条件随机场模型中,解决了标注样本不足情况下的实体抽取问题。在关系抽取方面,本文定义了多种金融领域相关的关系,并制定这些关系的候选关键字。针对特征组合需耗费大量人工成本的问题,本文将GBDT模型和逻辑回归模型通过Stacking的方式进行组合,以解决该问题。与对比算法相比,该模型在所有关系分类实验中均取得不错的效果。
其他文献
回顾2018年A股市场,受贸易战的影响,全球经济下行,沪指、深成指、创业板这三大股指分别下跌了-24.59%、-34.42%、-28.65%。随着经济下行、监管力度加大,原本投资者可以在证券市场上获得稳定收益的资产受到的限制增多,投资者愈发期望得到稳健的投资方案,故配对交易策略重新回到了投资者的视野中。配对交易是一种被广泛运用的统计套利策略之一,也属于市场中性策略。配对交易策略是通过构建股票对的多
金刚石线锯切割技术以其效率高、切割速度快、精度高等特点在硅片切割领域已经逐步取代了游离磨粒线锯切割技术。然而在金刚石线锯切割多晶硅过程中,由于多晶硅晶体结构复杂,
半导体光催化剂在环境和能源领域有着潜在的应用前景。W03由于具有良好的稳定性,价带空穴氧化能力强,来源广泛,低价,无毒的特点而受到广泛关注。然而,纯W03存在对太阳光谱的
液相扩散系数是研究传质过程(传质速率)的重要基础数据,在化工、物理、生物、医学及环保等领域都有着广泛应用。由于理论分析的困难,通常采用实验方法测量液相扩散系数。本文基于液芯柱透镜的焦平面成像原理,用等折射率薄层移动法对室温(25℃)下不同浓度的二甘醇和甘氨酸水溶液的扩散系数进行了实验测量。通过对测量结果的分析,提出了折射率薄层的选取原则。基于光线追迹原理,本论文还对扩散过程进行了数值模拟仿真。论文
近年来,我国的物流业搭上了互联网技术和电子商务迅猛发展的顺风车,迎来了它发展的春天。价格优势在如今行业竞争越发激烈的市场环境下,成为物流企业抢占市场份额,在竞争中立于不败之地的关键因素。因此,采用科学完善的成本核算方法核算物流成本,从而进行成本的有效管理对于物流企业至关重要。本文以A物流企业为研究对象,分析其成本核算现状。A物流企业采用传统的成本核算方法,但是这种方法却并不适用于间接费用占比高的物
随着步入“新常态”,中国经济面临着资源、环境等多重压力,过去粗放型的经济增长方式不仅难以为继,而且由其导致的资源错配问题,已成为制约中国生产率提升和经济增长的重要因素。如何改善资源错配,成为当前中国转变经济发展方式,实现经济可持续发展过程中亟待解决的重要议题之一。封闭条件下,资源错配的改善主要通过优化一国内部资本和劳动等生产要素的流动与配置来实现。而在开放条件下,资源不仅可以在一国之内流动,还可以
自2015年实验上观察到光子Lieb晶格中的光局域态以来,Lieb晶格因其存在平坦色散带而逐渐引起诸多学者的关注。平带光子晶格即在紧束缚近似下拥有平坦能带的光子晶格,其特殊拓
随着多媒体信息的爆发式增长,人们对多媒体检索的效率和准确率要求越来越高。在多媒体检索过程中,多媒体对象特征提取是所有检索方法的基础。而特征的长度决定了大多数检索算
随着现代保险行业业务范围的拓宽,保险在当今社会已经发展成为一股重要的力量,与经济的联系越来越紧密。然而,保险行业是一个风险高的行业,存在着信用风险、流动性风险、利率
货币金属(CuI、AgI、AuI)因为有独特的d10电子构型,可以抵抗金属间的相互作用力,增强金属间的相互作用,因此可以构筑多样的金属簇合物。由于Cu(I)离子在空气中容易被氧化、自组装过程难以控制等原因,炔铜(I)簇的构筑有待进一步发展。我们利用不同的合成方法,构筑了一系列的炔铜簇,并通过单晶X射线衍射确定了其结构。研究的主要内容有:(1)利用归中反应的方法,以Cu(II)盐、Cu(0)粉末和叔