汉语文本中突发事件因果关系抽取方法研究

被引量 : 14次 | 上传用户:dunwei1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
突发事件作为一个复杂系统,对其定性建模首先要分析内部各要素之间的因果关系,这是建立其他突发事件预测和仿真模型的基础。然而,基于专家知识的方法中因果关系的获取采用向领域专家发放问卷和访谈的方法,存在耗时、耗力和操作性差等局限性。而基于数据的方法需要依赖于一定规模的和完备的数据样本,而应急领域许多突发事件的数据往往存在没有系统积累、缺乏完整性和连续性等问题。但伴随着我国各级政府应急管理机制建设和学术研究的不断深入,形成了海量的有关突发事件的文本资源。这些文本资源中蕴含了大量有关突发事件演化规律的定性知识,特别是能反映各类突发事件系统中要素间的因果关系,这就是本文所指突发事件因果关系。这些文本可代替专家和数据成为突发事件因果关系的来源。因此,如何从应急领域文本中抽取突发事件内部要素间的因果关系,并建立突发事件因果关系模型是需要亟待解决的科学问题。针对汉语文本中因果关系抽取方法在国内外未进行系统研究和缺乏有效的抽取于文本的因果关系的集成方法的问题。本文利用突发事件应急管理中积累的文本知识源,围绕应急领域汉语文本中突发事件因果关系抽取方法这一核心科学问题探索基于多文本因果关系抽取的突发事件因果关系集成方法。本文针对上述问题进行下列研究工作:(1)突发事件因果关系模型研究。首先通过对突发事件系统共性要素的分析,明确了突发事件共性特征。然后,采用系统工程方法构建了突发事件的因果关系模型,进而对其因果关系进行了分析。以突发事件的输入、状态和输出要素集为基础,建立了可扩展的突发事件因果关系模型,明确了突发事件内部要素间的因果结构,为从文本中抽取的突发事件因果关系提供表示模型。(2)汉语文本中因果句法模式的归纳与显式因果关系抽取方法研究。应急领域文本中显式因果关系是突发事件因果关系的重要来源,针对汉语文本中因果关系抽取方法在国内外未进行系统研究的问题。首先,将汉语文本中的显式因果句区分为明确因果句和模糊因果句,基于汉语语法对汉语中的显式因果句归纳出的五种因果句法模式,进而提出因果句抽取匹配规则和因果句法模式匹配方法。然后,研究了基于朴素贝叶斯方法的模糊因果句分类模型。最后,针对分类后的因果句提出因果关系抽取方法,通过实验取得了较好的效果。其创新点在于归纳出汉语文本中的五种显式因果句法模式,系统揭示了汉语文本中因果句的基本表达方式,对计算机辅助汉语文本中因果关系抽取理论的进一步完善。提出的区分模糊因果句和明确因果句的基于因果句法模式的显式因果关系抽取方法,解决了当前文本中因果关系抽方法中不区分模糊因果句的局限性。(3)汉语文本中的隐式因果关系抽取方法研究。汉语文本中的隐式因果关系也是应急领域文本中突发事件因果关系的重要来源之一。通过对应急领域汉语文本的隐式因果关系特征分析的基础上,基于概念实体研究文本中隐式因果关系的抽取方法。首先,对预处理后的句子中的概念生成其频繁概念集,进而对概念频繁集进行因果性分析,最后对因果成分进行判别。其创新点在于将哲学和概率统计学中的因果理论与语言学结合的方法,基于Hume和Suppes等的因果关系理论对关联分析方法中的置信度计算方法进行了改进,从时间优先、因果性概率和因果性依赖等方面综合考虑设计了因果性评价函数和因果成分的判别方法,解决了关联分析方法不能完全适用于文本因果关系的挖掘的问题,为文本中隐式因果关系的抽取提供了一种基于因果关系理论的新方法。(4)多文本中冗余、冲突和稀疏的突发事件因果关系的集成方法研究。针对从应急领域文本抽取的因果关系具有冗余、冲突和稀疏的特点,以及独立因果关系无法形成对突发事件整体认知的问题。研究多个文本在个体层面的因果认知融合为反映突发事件全局因果认知的集成方法。首先研究基于向量空间模型的领域文本筛选方法,然后基于D—S证据理论并兼顾文本的领域特点对来自多文本的因果关系的集成方法进行了研究。其创新点在于提出了基于D—S证据理论和兼顾领域文本质量的多文本因果关系集成方法,消解了多文本因果关系中的稀疏、冗余和冲突问题,克服单文本对突发事件的描述存在偏差与不足,使基于文本中抽取的因果关系建立的突发事件因果关系模型能真实全面的反映突发事件的内部要素间的因果关系。为突发事件贝叶斯网络结构的生成提供了一种基于文本挖掘的新方法。一方面通过消解冲突和冗余信息达成突发事件中因果关系认识的一致,另一方面通过利用互补信息实现突发事件因果关系的完整认识。
其他文献
双语平行文本的元信息添加和段落、句子两级对齐是双语语料库建设中的关键技术。以往的研究对双语平行文本的元信息添加少有涉及,而大多数有关双语文本对齐的研究主要涉及句
近年来,汉语方言的词汇研究取得了长足的发展与进步,方言词汇的比较研究更是硕果累累。河北方言词汇也有不少研究著作和论文,但关于邯郸方言词汇的专门研究却不多,系统性的研究则
<正>(2009年4月7日)主席、与会各位代表:受大会组织委员会的委托,我代表大会学术委员会来做一个发言。经过两天的大会交流和分组讨论,宋耀如及其时代国际学术研讨会顺利完成
会议
本文以食品机械中鱼糜制品的自动化生产为研究背景,在了解了传统的鱼糜制品生产工艺后,设计了一条鱼糜制品连续自动生产的生产线的控制系统,并且根据生产要求,编写了基于S7-2
橙汁胞产品是近些年全球市场非常受欢迎的饮料产品,具有巨大的发展潜力。脱囊衣是脐橙深加工的关键工序,脐橙清洁加工利用生物酶法降解脐橙,其中果胶酶的生产至关重要。果胶
2009年12月22日,郑州市青少年校园足球活动在郑州市第四十七中学正式启动,时至今日已经开展两年有余。郑州市作为全国首批校园足球活动试点城市,按照《全国青少年校园足球活
在当今的21世纪,计算机网络已经成为了我们生活不可缺少的一部分,不论在工作、学习和生活,甚至在科研领域等都存在它的身影。假设计算机网络在我们平时生活中产生瘫痪或者其
最近这一年,清华大学团队和中建院团队正在合作进行国家科技支撑计划项目的课题,这个课题就是县域、镇域、村域的规划编制问题,我想从四个方面做一个简要的汇报。第一个方面
五、塔寺内外装饰、雕塑、绘画及其它 南传佛教塔寺内外装饰、雕塑、绘画以及其它各种文化的表现非常丰富,是集宗教与当地文化艺术为一体的百科全书。 宏观塔寺外部的特殊文
酿酒酵母因其具有优良的生长和发酵性能,而被广泛应用于乙醇和食品工业。在发酵过程中,有很多不可避免的胁迫环境出现,如高温、高渗等,这些环境会抑制细胞生长、降低细胞发酵