基于规则匹配与神经网络学习的中文实体关系抽取研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:haorui524
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是信息抽取领域的一个重要研究问题,其可以实现实体对之间的语义关系的识别,这项技术对知识图谱构建、问答系统、语义搜索等多个领域发挥着重要作用。在实体关系抽取的研究工作中,大多数方法是针对英文语料进行的,由于中文和英文句子的句法结构特征差异很大,现有的基于英文语料的方法难以直接应用于中文语料,而且此项研究的中文数据集相对比较缺乏。因此,面向中文文本开展实体关系抽取研究具有重要的理论意义和广泛的应用前景。本文研究工作如下:(1)基于句法特征的中文实体关系抽取。本文提出了一种基于句法特征的新型中文实体关系抽取方法,首先,以动词和名词为中心作为关系指示词抽取候选关系三元组,以避免预先定义关系类型。其次,使用关系指示词和实体对之间的位置限制过滤关系三元组。第三,通过总结四大类主要的中文句法特征,扩展已识别的关系三元组并提高实体关系抽取的准确性。最后,使用关系传递的方法来挖掘和推理隐式的关系三元组。在百科和新闻数据集上的实验结果表明,该方法具有良好的抽取性能。(2)基于触发词规则和Att-BLSTM的中文人物关系抽取。由于中文领域训练数据的缺乏,利用神经网络模型进行中文实体关系抽取方法不多且精度较低,为此,通过基于触发词规则的抽取算法来扩充训练数据,从而提高神经网络模型的精度,进而提升人物关系抽取的效果。基于触发词规则的抽取算法实现了训练数据的自动化标注,并形成了小规模有标注的中文人物关系抽取数据集。实验结果表明利用触发词规则和Att-BLSTM相结合的中文人物关系抽取方法优于基准的Att-BLSTM方法。
其他文献
碳纤维复合材料在飞机结构中的广泛应用已经成为当前轻量化设计的主要趋势。随着复合材料生产工艺及设计技术的发展,合理确定并逐步提高复合材料设计值,对保障复合材料结构完
【正】先比较下列英文的两句译文: 1.who was tired,had to stop for a rest on the way a.我疲劳了,因而不得不在途中停下来。 b.疲惫的我只好在途中停下来。 译文a根据上下
[目的] 研究鄂尔多斯地区生态格局以及在全球变化下的自然演变规律,揭示中国西部矿区人工扰动生态环境的时空变化。[方法] 利用1982-2012年GIMMS NDVI 3g数据集和年均气温、降
目的:了解海上训练应激对陆军士兵心理健康水平的影响.方法:应用SCL-90量表对参加海训的陆军士兵进行心理测试分析.结果:陆军士兵参加海训1个月时,其诸多因子分显著高于海训
近年来,浙江省台州市在基层便民服务方面不断探索,从"代理制"到"零距离",通过理念创新、管理创新、模式创新和机制创新,体现了服务的"下沉"和内涵的"提升"。便民服务中心的整
文章对学校心理咨询员职业倦怠的形成机制、具体成因进行了分析,并提出了相应的对策。
通过对国外资料的考察分析,论述了空燃比波动对车用三效催化剂活性的影响。在催化剂与电喷发动机的匹配中,必须考察催化剂的动态特性。对催化剂的动态性能和静态性能进行了试
从个人个人信息保护制度出发,在个人隐私、商业利益和经济可持续发展之间寻求平衡是个人信息保护的重要内容,要在保障用户信息安全和运用用户数据为之提供更好服务之间,找到
传统机器人充电采用插拔式的充电方式,但由于多次的插拔导致接触的磨损而接触不良,造成机器人无法正常充电。本文针对机器人充电的特性研究一种基于单管耦合式的无线充电系统
本设计是利用西门子S7-300系列PLC对火焰切割机进行控制,从而实现自动化智能化。在生产过程中,是通过控制火焰切割机的横向和纵向的运动来控制运动轨迹的。工作过程如下:接通