【摘 要】
:
随着自然语言处理从单文本内部转向多文本之间,作为文本间实体链接的纽带,跨文本指代消解越来越凸显其重要性。与传统的面向信息检索的跨文本指代消解不同,信息抽取中的跨文本指
论文部分内容阅读
随着自然语言处理从单文本内部转向多文本之间,作为文本间实体链接的纽带,跨文本指代消解越来越凸显其重要性。与传统的面向信息检索的跨文本指代消解不同,信息抽取中的跨文本指代消解不但要解决重名问题,更要解决多名问题。而目前中文跨文本指代消解研究方面,既缺乏相关基准语料库,更无从比较各种方法的优劣。本文从构建语料库开始,通过无监督的聚类方法和有监督的机器学习方法来研究中文跨文本指代消解的各种技术和方法,研究内容包括:1)在ACE2005中文语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的中文跨文本指代语料库,并对语料库进行了统计和分析,用信息论中的“困惑度”概念来揭示中文跨文本指代现象的分布规律,为后续的研究工作指明方向。2)分析了传统的无监督聚类方法在中文跨文本指代语料库上的消解性能表现。具体而言,在自行标注的ACE2005中文跨文本指代语料库上采用向量空间模型、实体表述以及将两者结合起来的相似度计算策略,再通过不同的聚类方法进行了中文跨文本指代消解。3)探索了分类方法和多种语义特征在中文跨文本指代消解系统中的作用。通过SVM分类模型来融合实体表述的构词特征、读音特征及各种内部和外部语义特征,把聚类问题转换成分类问题,从而来实现中文跨文本指代消解。在自行标注的跨文本指代语料库上的分析和实验表明:首先,在面向信息抽取的跨文本指代消解中,多名问题比重名问题更为严重;其次,传统的基于向量空间模型的聚类方法难于取得好的性能,而简单的表述匹配却可以取得较高的精度;因此,在表述匹配的基础上融合各类语义和非语义特征的分类方法取得了最好的性能。
其他文献
城市轨道列车作为重要的城际间交通工具,在近几年来发展迅猛。在轨道列车迅猛进步之际,为了使得列车能够安全行驶、准点到站,运输效率更高,满足旅客舒适度和环保节能的需求,
随着信息技术水平的提高和企业对网络的依赖性日益增强,网络安全状况面临着巨大挑战。攻击者和网络安全管理人员始终上演着攻击预防大战。攻击者的攻击方式日新月异,安全管理人
医学图像三维重建是借助于可视化技术将医学图像重建成三维模型并显示出来,具有重要的研究和应用价值。MarchingCubes方法是三维重建中应用广泛的面绘制方法,但会生成大规模
随着社会的不断发展,人们的经济条件和生活水平不断提高,越来越多的食品安全问题被曝光使得人们对其关注度不断提高,然而这些食品安全事故严重威胁着人们的身体健康和精神健
网络编码允许节点对多个数据包进行运算编码,当接收节点收到足够数量的编码包后,可以应用相应的编码系数进行解码。相关研究表明,当网络编码被应用于组播及无线网络传输时,可
覆盖算法作为一种构造型分类建模算法,以其训练速度快、分类效果好而著称。在现今互联网时代,时常面对较大的数据集训练和分类的挑战,因此提升机器学习算法的训练速度和分类
高光谱图像通常具有纳米级的光谱分辨率,能提供丰富的地物空间信息和光谱信息,被广泛应用在精细农业、环境监测、现代军事等诸多领域。高光谱图像在具备诸多优势的同时也存在光谱维度高、光谱相关性大、噪声多、样本少等特点,这给高光谱图像分类过程带来了诸多问题和挑战,研究如何解决上述问题提高分类效果,是高光谱遥感领域的重要研究课题之一。针对高光谱图像分类过程中样本难以获取、样本数量少的特点,本文从降维、去噪和特
在非结构化P2P网络(unstructuredpeertopeernetworks)中,由于对网络的节点及资源分布没有统一的管理,资源的查找易形成大量的网络查找消息负载。同时由于网络节点的异构性,节点在
海量数据的增长使得有用信息和知识的获取变得更加困难,作为一种能自动、智能地将待处理数据转换成有用信息和知识的数据处理、分析技术,数据挖掘已经在各行各业的知识发现和数
如今恶意程序是互联网遭受的主要威胁之一,僵尸网络、钓鱼网站、恶意邮件等等本质上都是恶意程序,通常也简单地将恶意程序称为病毒。安全厂商每天收到成千上万份病毒样本,为了尽