基于句向量和知识库推理的关系抽取研究

被引量 : 0次 | 上传用户:nene7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,每天在网页上都会产生海量的非结构化文本,这些文本中包含着很多有价值的信息与知识。开放式关系抽取的主要目的是将非结构化文本中的信息与知识转化成结构化的三元组。问答对是网页上一种常见知识文本,经常以客服记录、社区论坛、用户评价和智能问答的形式出现。将问答对中的知识进行抽取和结构化表示,对理解用户语义,构建智能问答系统;构造领域本体,实现大规模知识库等工作有着深远的意义。本文通过对关系抽取相关算法的深入研究,将半监督学习方法Bootstrapping应用在问答对的关系抽取任务中,并针对其中性能不足的模块加以改进。提出基于sentence2vec的句式构造和元组发现方法,提升传统方法中基于规则模板匹配构造方式的性能;结合Bootstrapping算法循环迭代抽取提问模式和实体关系;最终通过sentence2vec技术构造提问模式语义块,生成包括提问模式元组和实体关系元组表示知识。知识元组以知识库形式存储,通过引入面向知识库的表示学习,对其中知识进行计算,验证知识元组的正确性。提出基于改进的KG2E算法筛选元组,提升半监督算法中基于置信度计算的筛选方式性能。算法通过实体关系的高斯分布对知识元组进行向量化表示,并通过KL距离或期望概率计算元组不确定性,在模型训练过程中,结合word2vec与传统算法得到可信负例,提升模型筛选的准确性。最终实验结果显示,相较于传统算法和其他算法,本文的方法得到了更好的准确率和召回率。
其他文献
241Am感烟式火灾报警器在国内外已被广泛应用。241Am感烟探测源是报警器的核心部件,α粒子能量的高低与源活性区上金覆盖层的厚度有关。用英国进口的混合核素(241Am,244Cm,23
目的:以载脂蛋白E基因敲除小鼠为研究对象,探讨心痛泰对动脉粥样硬化的干预效应、调控靶点及其作用机理。方法:42只6-8周龄雄性ApoE-/-小鼠给予高脂饲料喂养,12周后随机选取2
随着中国“一带一路”倡议的持续推进,中国与世界各国的经贸合作越来越频繁,由于地理位置接近文化相通,中国与大湄公河次区域(GMS)国家的经济合作十分紧密。在中国与GMS国家
本文从消费者属性和消费者认知双重视角,基于北京市、郑州市和上海市消费者的问卷调查,研究不同地理区域消费者特色农产品(新疆库尔勒香梨)购买行为及存在差异,分析消费者购
宗教传统作为我国悠久历史文化的重要组成部分,在社会生活和经济发展中起着不容小觑的作用。在我国股市跌宕起伏的现实背景下,本文研究了宗教传统这一非正式制度对公司股价崩
随着我国国民经济的快速发展和经济实力的不断增强,国际工程承包业务进入了高速发展时期。2016年,我国国际工程承包完成营业额和新签合同额分别为1594.2亿美元和2440.1亿美元
目的对戊酸雌二醇片促进人工流产后子宫内膜修复预防宫腔黏连的临床效果进行分析。方法将2017年4月~2018年4月在某院进行人工流产的134例患者作为研究对象,用硬币分组方法分为
金文最早产生于商代早期,这个时期的铭文相对较少,但字形活泼生动,极富天趣;至西周早期,其金文亦较多地保留了商代金文的特点,字形各尽其态,潇洒自如;金文发展至西周中后期达
<正>水中尸体的法医学鉴定中,鉴别生前入水与死后入水对于确定案件性质十分重要。非典型溺死是指落水者在落水后死亡,但并无溺死的典型征象,也称为干性溺死。本文对一例水中
会议
在中学篮球的教学和训练中,培养学生的战术意识是一项非常重要的内容,其可以起到让学生正确认识到篮球这项运动基本规律的作,可以说是篮球教学中非常关键的一部分,并且也是篮