论文部分内容阅读
很多科学研究的中心问题其实就是对因果关系的阐述,即变量或事件之间直接作用关系的阐述。通过随机对照实验这种方式获得因果关系被称为获得因果关系的“黄金标准”。但是这种方法常常耗费过高或者根本不可行。因果关系还可以从观测数据中获得。已经有相当数量的研究工作是从结构化的观测数据中分析因果关系。但是这些研究如何从结构化数据中获得因果关系的工作大都使用小数据集或者人造数据集,大大的限制了这些研究在真实的大规模数据上的适用性。还有另外一种选择就是从文本数据中抽取和推理出因果关系,其中文本数据的来源可以是非常多样的,例如科技文献、教科书、新闻、病历文本等。基于文本数据的因果关系分析主要包含三大类内容:其一是基于文本数据的因果关系抽取,即从文本数据中抽取出在语义上表达因果关系的实体对或者事件对;其二基于文本数据的因果关系推理,即整合多个从文本数据中抽取出的因果关系,通过归纳总结得出深层次的因果律或者推理出未观测到的因果关系或者新的因果关系假设;其三因果关系应用,即利用从文本中获得的因果关系来帮助预测或者决策。本文的研究工作涵盖以上三类问题。首先本文研究了基于文本数据因果关系抽取的有效方法和特征。在此基础之上,1)归纳总结出事件因果律;2)推理出未观测到的因果关系和新的因果关系假设。最后,本文研究使用从文本中获得的因果关系时所面临的挑战并提出了相应的解决方案。具体来说本研究的主要内容包括以下几个方面:1.基于因果连接词聚类分析的因果关系抽取。本文提出了受限贝叶斯分类模型来从文本中抽取因果关系。除了像上下文特征,句法特征,位置特征等这一些常用的特征外本文还利用一个新的特征,即因果连接词类别特征。这种新的特征是通过度量包含因果连接词的句子间的句法相似性获得的。在以往的研究中特征常常被认为是相互独立的,但是这不是事实。本文提出模型的优点在于它能够建模部分特征之间的相互依赖关系。在公共数据集上的实验表明,受限贝叶斯分类模型是非常有效的因果关系抽取模型,因果连接词类别特征对因果关系抽取来说是最有效的特征。2.基于归纳模式的抽象事事件因果网络构建。该研究提出了一个新的概念“抽象因果事件网络”和一个层次化事件因果的生成方法,在具体的因果事件网络之上建立一个抽象的因果事件网络。在这个网络可以获得大量泛化的、频繁的、简洁的因果关系模式。这些因果关系模式揭示了具体因果事件背后的深层次的因果律。此外,该研究设计了一种新型的Dual-CET模型,它可以把因果网络上因果关系的关键属性编码到一个连续的向量空间中。通过学习和对潜在的连续向量表示的操作,嵌入式表示学习的方法可以大大提高事件匹配的灵活性并提高事件预测的准确性。3.基于推理规则的因果发现与因果假设生成。该研究旨在从医学文本数据中发现因果关系并产生新的因果关系假设。然而现有的研究利用抽取模型来从单个句子中提取因果关系,而没有考虑因果关系传递性的知识,这些因果传递性通常要么还未被观测到要么存在于多个句子之间。针对这一问题,本文提出一个基于因果推理规则的因子图模型来建模因果关系的文本特征和结构特征。该模型可以在大规模的文本数据中发现因果关系并产生新的因果关系假设。4.基于因果关系的疾疾病预测。为了能够利用稀疏的疾病和症状之间的因果证据来进行精准的疾病预测,该研究提出了症状共现网络和疾病演化网络这两个上下文信息网络的疾病诊断因果网络。为了更好的利用这个疾病诊断因果网络,本文提出一种带约束的因果网络表示学习方法来利用症状的共现和疾病的演化作为约束解决症状和疾病之间因果证据的稀疏性问题。从而使得利用口语化的症状描述也能获得比较好的疾病预测结果。总的来说,本论文利用文本中因果关系的特点,深入地研究了因果的语义表达方式、因果关系的泛化能力、因果关系的内在推理逻辑、因果证据的稀疏性特点,在因果关系抽取、抽象因果网络构建、因果关系假设生成、利用因果关系的预测等问题上进行了若干实践并取得了一些很好的结果。我们期待这些研究成果可以起到抛砖引玉的作用,给其它的研究人员些许启发,激发研究人员对文本中因果关系研究的热情,也希望相关从业者能够利用本文的实践基础推动相关产业的些许进步。