文本自动摘要方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:sk01230147
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘(Automatic Document Summarization,ADS)是自然语言处理领域的一个子领域。它是利用计算机系统自动生成文本摘要的应用技术,或者说是按读者(或用户)的要求以简洁的形式表达原文主要内容的技术。研究自动文摘技术的理论价值在于,一个完善的自动文摘系统几乎可以涵盖自然语言处理领域的方方面面,所以,该领域的研究对于整个自然语言处理的发展定能起到一定的推动作用。并且,这项研究也有着广泛的应用前景:在互联网技术高度发达的今天,自动文摘技术能够有效地帮助人们从检索到的文章中寻找自己感兴趣的内容,提高阅读速度和质量。   本论文主要工作和贡献归纳如下:   (1)在模型创建方面,本论文提出了一种基于序列分段模型(SequenceSegmentation Models,SSM)的有监督摘录型摘要提取方法。在这种方法里,摘要问题被看作“段标注”问题。与前人的工作相比较,SSM方法的不同之处在于提取特征的单位不单来自句子,也可以来自于段。我们的SSM使用了可以对“段”建模并标注的半马尔可夫条件随机场(Semi-Markov Conditional Random Fields,SemiCRF)。实验表明,这种方法与单纯以句子为单位提取特征的摘要方法相比,有较明显的改善效果。   (2)在建模方面我们提出的另一种方法是采用排序学习方法(Learning to Rank,LTK)对通用型(generic)摘要问题建模。摘录型摘要的核心问题是给句子打分,打分的目的是为了后面的排序,并输出排名靠前的句子。而排序学习本质上就是为了解决排序问题,所以和摘录型摘要有很强的内在切合点。而且,采用排序学习建模更强调同一文本内的句子之间的相互比较,这和以往的建模方法有很大不同。我们将当前流行的几种排序学习算法在摘要问题上进行了比较,并第一次使用了逐列的排序学习方法。我们的实验证明,采用排序学习对通用型摘要建模是行之有效的,当采用SVMMAP这种逐列排序学习方法时,其总体效果还要优于以往建模方法。   (3)在特征提取方面,本论文提出了采用潜层狄利赫雷分配(Latent DirichletAllocation,LDA)来提取特征的方法。这种方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于查询的无监督的多文档自动摘要。该方法被认为能较好地对文本进行潜层语义建模。本论文在前人工作基础上,研究了LDA在有监督的自动文摘中的作用,提出了将LDA提取的主题(Topic)作为特征加入有监督模型中进行训练的方法,并分析研究了在不同Topic下LDA对摘要结果的影响。实验结果表明,加入LDA特征后,能够有效地提高以传统特征为输入的文摘系统的质量。   (4)在多文档摘要中,冗余句的识别和剔除是一个至关重要的问题。无论是采用摘录型摘要方法还是理解式摘要方法,这都是一个不可回避的问题。针对这个问题本论文着重研究了复述(Paraphrase)句的识别问题。传统的解决复述句识别方法是通过词频或句法上的相似度来判断的。可是哪怕用相同的文字书写的句子其含义也可能差别很大,而相同句法结构也不能保证意义一致。本文根据新闻语料的特点,提出了一种通过引入深层的语义角色标注来帮助识别新闻领域复述句的方法。该方法通过在语义角色这种结构化的含义表达形式中提取的特征来弥补传统方法的不足:先识别待判断的两个句子中所有谓词的语义角色,然后计算两个句子间对应语义角色的相似度,最后结合传统的句子相似度计算方法来进行相似性计算。实验证明,本文提出的方法能有效地提高复述语句的识别效果。
其他文献
表面具有粘着效应的弹性材料(Adhesive Materials)目前已被广泛应用于生化、医药、工业化学及电磁领域上,例如医院使用的绷带,日常生活使用的便利贴和胶带,尤其是橡胶材料,早已应用在各行业的领域中,比如汽车轮胎,所以研究粘着材料内部组织与力学性质等,将对粘着性材料应用于工程及学术研究方面有所帮助。JKR理论是研究粘着材料接触问题的重要理论,理论提出的实验基础则成为研究粘着材料界面粘着性能
交通拥挤是当今世界普遍关注的问题,它所带来的严重危害日益影响到人们的日常生活和社会经济的发展。交叉口作为路网中的重要组成部分,其通畅与否直接影响整个交通网络能否平稳
随着气象研究的深入,国内外研究人员发现中气旋这种强对流天气与雷雨、大风、冰雹、龙卷等灾害性天气密切相关,对于中气旋等强对流天气的识别研究也不断获得重视。随着多普勒天
随着人们生活节奏的加快,生活、工作等各方面压力的增加以及饮食的不合理,致使心血管疾病频发。心血管病之一的高血压已经越来越严重的威胁着人们的健康。血压测量已成为临床上
在pH中和过程控制中,被控对象的动态性往往呈现出严重的非线性和滞后性,这使得难以对其建立比较精确的模型,从而难于精确表达pH中和过程及实施整体优化控制。而Takagi和Sugeno于
随着微机电系统(Micro-Electro-Mechanism System, MEMS)、片上系统(SOC,System on Chip)、无线通信和低功耗嵌入式技术的飞速发展,孕育出无线传感器网络(Wireless Sensor Networks, WSN),并以其低功耗、低成本、分布式和自组织的特点带来了信息感知的一场变革。无线传感器网络中每个节点能源的有限性极大的束缚了无线传感器网路的发展
汽车仪表是驾驶员与汽车进行信息交流的重要窗口,对汽车的安全与经济行驶起着重要的作用。随着计算机技术的发展,嵌入式GUI作为人机界面的软件系统,己经被广泛应用。为了更好
高速、高精度的自动灌装设备和飞剪剪切设备长期以来处于国外垄断之中,而多轴同步控制技术是这类自动化设备必须解决的关键技术之一,也是国家数控科技重大专项中的关键技术之一
现代军用和民用导航系统需要详细的载体运动状态信息来进行载体控制。由陀螺仪和加速度计等传感器构成的捷联惯性导航系统以其独特的优点被广泛应用于导航系统中,实时自主地为
近年来,三相电压型PWM整流器做为电力电子设备的重要组成部分被广泛应用到工业节能和新能源发电中,对其性能的期望也越来越高。在电网不平衡时,采用常规控制策略的电压型PWM整流