基于文本的因果关系抽取与推理

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sun200208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
很多科学研究的中心问题其实就是对因果关系的阐述,即变量或事件之间直接作用关系的阐述。通过随机对照实验这种方式获得因果关系被称为获得因果关系的“黄金标准”。但是这种方法常常耗费过高或者根本不可行。因果关系还可以从观测数据中获得。已经有相当数量的研究工作是从结构化的观测数据中分析因果关系。但是这些研究如何从结构化数据中获得因果关系的工作大都使用小数据集或者人造数据集,大大的限制了这些研究在真实的大规模数据上的适用性。还有另外一种选择就是从文本数据中抽取和推理出因果关系,其中文本数据的来源可以是非常多样的,例如科技文献、教科书、新闻、病历文本等。基于文本数据的因果关系分析主要包含三大类内容:其一是基于文本数据的因果关系抽取,即从文本数据中抽取出在语义上表达因果关系的实体对或者事件对;其二基于文本数据的因果关系推理,即整合多个从文本数据中抽取出的因果关系,通过归纳总结得出深层次的因果律或者推理出未观测到的因果关系或者新的因果关系假设;其三因果关系应用,即利用从文本中获得的因果关系来帮助预测或者决策。本文的研究工作涵盖以上三类问题。首先本文研究了基于文本数据因果关系抽取的有效方法和特征。在此基础之上,1)归纳总结出事件因果律;2)推理出未观测到的因果关系和新的因果关系假设。最后,本文研究使用从文本中获得的因果关系时所面临的挑战并提出了相应的解决方案。具体来说本研究的主要内容包括以下几个方面:1.基于因果连接词聚类分析的因果关系抽取。本文提出了受限贝叶斯分类模型来从文本中抽取因果关系。除了像上下文特征,句法特征,位置特征等这一些常用的特征外本文还利用一个新的特征,即因果连接词类别特征。这种新的特征是通过度量包含因果连接词的句子间的句法相似性获得的。在以往的研究中特征常常被认为是相互独立的,但是这不是事实。本文提出模型的优点在于它能够建模部分特征之间的相互依赖关系。在公共数据集上的实验表明,受限贝叶斯分类模型是非常有效的因果关系抽取模型,因果连接词类别特征对因果关系抽取来说是最有效的特征。2.基于归纳模式的抽象事事件因果网络构建。该研究提出了一个新的概念“抽象因果事件网络”和一个层次化事件因果的生成方法,在具体的因果事件网络之上建立一个抽象的因果事件网络。在这个网络可以获得大量泛化的、频繁的、简洁的因果关系模式。这些因果关系模式揭示了具体因果事件背后的深层次的因果律。此外,该研究设计了一种新型的Dual-CET模型,它可以把因果网络上因果关系的关键属性编码到一个连续的向量空间中。通过学习和对潜在的连续向量表示的操作,嵌入式表示学习的方法可以大大提高事件匹配的灵活性并提高事件预测的准确性。3.基于推理规则的因果发现与因果假设生成。该研究旨在从医学文本数据中发现因果关系并产生新的因果关系假设。然而现有的研究利用抽取模型来从单个句子中提取因果关系,而没有考虑因果关系传递性的知识,这些因果传递性通常要么还未被观测到要么存在于多个句子之间。针对这一问题,本文提出一个基于因果推理规则的因子图模型来建模因果关系的文本特征和结构特征。该模型可以在大规模的文本数据中发现因果关系并产生新的因果关系假设。4.基于因果关系的疾疾病预测。为了能够利用稀疏的疾病和症状之间的因果证据来进行精准的疾病预测,该研究提出了症状共现网络和疾病演化网络这两个上下文信息网络的疾病诊断因果网络。为了更好的利用这个疾病诊断因果网络,本文提出一种带约束的因果网络表示学习方法来利用症状的共现和疾病的演化作为约束解决症状和疾病之间因果证据的稀疏性问题。从而使得利用口语化的症状描述也能获得比较好的疾病预测结果。总的来说,本论文利用文本中因果关系的特点,深入地研究了因果的语义表达方式、因果关系的泛化能力、因果关系的内在推理逻辑、因果证据的稀疏性特点,在因果关系抽取、抽象因果网络构建、因果关系假设生成、利用因果关系的预测等问题上进行了若干实践并取得了一些很好的结果。我们期待这些研究成果可以起到抛砖引玉的作用,给其它的研究人员些许启发,激发研究人员对文本中因果关系研究的热情,也希望相关从业者能够利用本文的实践基础推动相关产业的些许进步。
其他文献
在进行室内装饰设计的时候,色彩搭配能够影响人们的生理与心理感受。并且色彩搭配是影响建筑室内装饰设计较为关键的内容,在室内装饰设计中,运用正确色彩搭配会给人们生活带
本文对拳击项目人才培养过程中的心理训练的目的作用、方法、技战术训练及注意事项进行了浅析,旨在给拳击教育、教学、训练、竞赛与管理等工作者提供一些理论参考依据.
行人再识别是指在具有不重叠视域的监控摄像机网络中对拍摄到的行人图像进行身份关联的工作。在跨摄像机跟踪、多视角行为分析、行人搜索等诸多应用中,行人再识别起着至关重
针对传统的知识推荐算法存在用户冷启动和冷门物品推荐的问题,提出了一种基于三部图网络结构的知识推荐算法。在计算相似度时引入网络结构中的度,综合考虑项目的度和权值及标
本文通过讨论写实性油画的表现性,并进一步解析著名油画家忻东旺的油画表现手法及其艺术追求和成就。阐述其在绘画中所具有的独特的审美价值。文中主要解析了其艺术取向和表
本文在甘肃白水江自然保护区碧峰沟通过野外调查、定点定时观察、实验地饲养、标记重捕等方法研究了碧峰沟的蝶类多样性并进行了局部濒危评估;研究了四种重要蝶类的生物学特性
荷叶说唱是国家级非物质文化遗产歌仔说唱项目的一个极具特色的品种。从荷叶说唱的源起、内容与表演形式、常用曲牌与基本特征、传承艺人与经典唱段及发展瓶颈等角度出发展开
随着锂离子电池在移动电子设备、电动汽车以及储能领域的广泛应用,市场对电池的能量密度及循环寿命等性能提出了越来越高的需求,基于嵌入反应的电极材料(如LiCoO2正极材料和石
屏蔽电动机核主泵(简称屏蔽电机主泵)是AP系列压水核反应堆一回路的重要组成部分,是反应堆冷却剂回路中长期连续运转的关键设备,其长期稳定的运行是核反应堆安全的重要保障。
鸭坦布苏病毒病是由坦布苏病毒(Tembusu Virus,TMUV)引起的一种新发传染性疾病。该病自2010年起持续危害我国水禽养殖业,造成了严重经济损失。2017年11月,山东临沂地区一前期接种过鸭坦布苏病毒弱毒疫苗的种鸭群发生以产蛋下降为主要特征的疾病。通过采集脑、肝脏等组织制备组织悬液,无菌处理后在10日龄鸭胚上盲传四代,经鉴定,本试验获得了一株鸭坦布苏病毒,随后进行了动物回归试验。所收获毒