跨文档共指消解的方案研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:cuixy3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨文档共指消解(CrossDocumentCoreference,CDC)是以分散在不同文本来源中的相同名词实体为对象,通过信息抽取、信息表示和聚类等技术最终判定这些名词实体与客观概念之间的共指关系的过程。CDC的研究涉及信息抽取、数据挖掘、自然语言处理等多个研究领域,其是文本信息融合的核心技术,是文本信息理解的研究基础。随着信息社会的不断发展,对于高效获取和组织信息的技术需求日益迫切,CDC研究的重要性也日益凸显。  在目前CDC的相关研究中,传统的文本挖掘方法依然占据核心地位。然而随着对CDC技术研究的逐渐深入,传统的文本挖掘方法已经很难适应当前CDC应用的要求。例如,文本本身的复杂性、文本边界的束缚、相关信息的抽取以及领域和先验知识的匮乏都已经严重地影响到了CDC技术的发展与应用。  CDC相关研究的难题其本质上都是由于自然语言文本中信息的复杂性和相关性所导致的。自然语言文本中信息的复杂性和相关性归根结底是源于人的思维的复杂性和相关性。这种复杂性和相关性是由于人对复杂的客观事物具备了更为深入的认知能力、推理能力和表述刻画能力。然而,这也是计算机在获取、组织和理解文本信息的过程存在着诸多难题的根源。因此,若能降低自然语言文本信息的复杂性,充分利用现有的数据挖掘、模式识别技术识别和处理其相关性,并且在此基础上大胆创新,探索出适用于CDC问题的计算机技术处理方案,将能够极大的推动CDC研究的发展。  利用模式识别和数据挖掘技术的重要方法——贝叶斯理论和图理论对自然语言文本信息进行定量的转化与表示。作者将这些理论引入CDC问题的研究当中,用以抛砖引玉,为CDC技术的进一步发展提供更新的技术路线与解决方案。本文的主要研究内容如下:  ①基于非参数贝叶斯模型的跨文档共指消解方案  以往的跨文档共指消解方案都是采用文档内部共指链或者信息窗口的方法对待消解名词实体的相关信息域进行划分,并抽取信息特征进行信息表示。在本方案中,首先考虑到主题在文本中的分布情况,假设主题在待消解名词实体相关信息域中的分布是相同的,以文档中的句子为对象,通过分层Dirichlet过程(HierarchicalDirichletProcess,HDP)模型计算句子中各个主题所占的成分,再利用Dirichlet过程混合模型(DirichletProcessMixtureModel,DPMM)对句子进行聚类,将包含待消解名词实体的划分句子集作为待消解名词实体的相关信息域;随后,采用HDP模型重新计算各信息域内主题所占的成分从而对各个待消解名词实体的相关信息域进行信息表示;最后通过现有研究中常用的聚类算法对方案性能进行评估,评估结果表明该方案较现有的方法具有更好的消解效果。此外,本文还论证了非参数聚类方法在方案中使用的局限性。  ②基于图理论的跨文档共指消解方案  方案首先采用图理论的信息表示方法——信息图对待消解名词实体的信息域进行了表示。该信息表示方法可以很好的体现各名词实体之间的关系,同时又对文本中的信息进行了有效筛选;其次,方案通过将信息图进行相似性度量,获得各个待消解名词实体的信息图之间的相似关系,从而构建各个待消解名词实体的关系网络;最后通过采用有权的社交网络社团划分方法,对整个关系网络进行社团划分,得到社团结构即为各个待消解名词实体的共指关系划分。该方案通过在常用公共数据集上的性能评估,证明方案在不借助任何先验知识和领域知识的情况下,较以往的方法在性能上有一定的提升,且方案具有较好的普适性,具有很好的实用价值。  ③扩充的基于图理论跨文档共指消解方案  虽然基于图理论的跨文档的共指消解方案已经具有了较好的消解性能和很好的实用价值,但是图的信息表示方法还具有可以挖掘的潜力。基于上述考虑,提出了基于图理论扩展的跨文档共指消解方案。该方案主要从以下两点对同模型进行扩展:1)通过信息图的拓扑特性,对信息图进行有权化扩展,计算得到了信息图中的节点权重向量和边权重向量;2)对信息图进行了合理的向量转化,使其可以通过向量的相似性度量算法计算各信息图之间的相似度,从而构建了各个待消解名词实体的关系网络。扩展的效果通过社交网络的社团划分方法进行了性能评估,结果显示相较于基本的图理论信息表示方法,该方案在信息量较大的文本数据中可以有一定的性能提升,但是在信息量相对较少的文本数据中效果差别不大。经过分析,出现这种结果的主要原因在于文本信息量越大,其名词节点之间的关系越复杂,扩展后的有权信息图可以对其更好的刻画,然而信息量较少的文本生成的信息图结构相对简单,对其有权化的意义不大。
其他文献
随着计算机网络的迅速发展,我们可以获得巨大的图像资源,同时也面临着计算机视觉研究的巨大挑战,即如何找到有效的方法来自动标注图像,减少手工标注所消耗的人力资源和人为倾向性
近年来,互联网信息的爆炸式增长给了统计机器翻译新的契机,众多研究团体和商业机构开始从互联网上获取大规模的双语语料。机器翻译模型的优劣与语料的规模和质量息息相关,从互联
自然景观模拟是虚拟仿真研究领域中一个重要的研究内容。众多自然景观中,喷泉、火焰、烟雾、降雨、河流、瀑布等都具有不规则几何状态、动态性和随机性,这些特殊自然景观的模型
随着汽车工业的发展和人们生活水平的提高,人均汽车拥有率逐渐提高,车流量不断增大,导致交通事故频发。如果能在驾驶过程中及时检测交通标志并将标志上的信息反馈给驾驶员,则可以
医学图像配准是针对两个图像或体数据,找到一个几何变换让一个图像上的点映射到另一个图像上,使两图像达到空间位置上的对齐。随着医学研究的深入,单一模态下的图像信息已经
肝脏解剖结构复杂,且存在门静脉、肝静脉、肝动脉、胆管等四套管道系统,变异较为常见,因此对肝脏肿瘤的手术治疗难度大,风险高。  随着CT、MRI等造影技术的完善,及三维技术
随着智能电网的快速发展,电力行业已经进入了“大数据时代”。变压器是电网平稳运行的关键设备,变压器故障诊断方法能够保证电力系统平稳运行。在电力系统中,利用变压器在线监测技术可以及时发现其故障类型。但是由于监测的数量点多,且在一段时间内会多次获取监测数据,因此,其数据量规模急剧增长。通过对数据挖掘算法并行化,实现对海量的电力变压器监测数据快速分析。Spark是分布式内存计算框架,具有轻量级快速处理、兼
基于脑机接口技术的动物机器人,是以活体动物作为运动载体,将外部的控制指令直接施加于动物大脑,实现对动物感受和行为的干预控制,从而构建的新型动物-机器混合系统。受限于动物
当前,个人和组织的信息呈现急剧增长趋势且非结构化数据所占比重在不断的增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个数据空间,如何为用户提供高效、便捷和
随着物联网中的智能化物体数量急剧增长,如何对物联网进行高效的查询成为一个研究热点。目前,物联网中采用的查询系统为ONS(对象名称服务)系统,但随着互联网地址空间爆炸性的增长,O