面向查询的多文档自动文摘关键技术研究

来源 :复旦大学 | 被引量 : 10次 | 上传用户:honghe2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。本文正是在这种前提下,对自动文摘技术进行了探索性研究。本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上,研究并实现了多种面向查询的多文档自动文摘技术。我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联,我们提出了一种在文摘系统中进行语义扩展的方法,该方法通过WordNet中定义的同义词集以及词与词之间的语义关系,对传统的基于词的句子向量进行语义扩展,从而将语义信息融入到句子中,使得系统性能比起语义扩展前得到了显著提高。本文还提出了一种基于图排序算法的查询扩展方法,将其结合到面向查询的自动文摘系统中,可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展,能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高,在DUC标准评测语料上达到了目前的最好结果,充分表明了该查询扩展方法的有效性。自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率,对文摘语言质量如可读性、连贯性等方面的评测则由人工完成,由于需要消耗大量人力而且缺乏客观性,使得人工评测方法不能普及,所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上,我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究,通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化;分析了实体选择在模型中的重要性,并且通过潜在语义分析重新建立了实体网格,从而对原有模型进行了改进,在实验中获得了更高的准确率。
其他文献
近两年来,在.com和宽带"泡沫"负面效应的影响下,作为宽带移动通信关键一步的第三代移动通信IMT-2000(3G)是否也会出现"泡沫"问题,已成为信息通信业界的热门话题.的确,3G可以
学前音乐教育可以激发幼儿的学习兴趣,培养幼儿的感知能力和自信心,在一定的程度上可以提升幼儿的审美能力,激发幼儿的创造力,有利于幼儿的全面发展。文章分析学前音乐教育在
在无线专网通信中,常有单频单工电台进行多机同台工作,所谓多机同台,是指多个单频单工电台,具有各自独立的天线,但安装在同一天线塔或同一地点的情况,例如机场塔台.
随着网络时代的到来,电子文本形式的信息大量涌现,使得互联网成为一个巨大的信息源。各类海量的文本信息在给人们带来便利的同时,也为信息产业带来了新的挑战。如何从信息海
随着无线通信技术及计算机网络技术的迅速发展,无线网络产品供应商与计算机厂商的结盟,逐步成熟的网络技术产品,统一的技术标准为计算机无线局域网的推广应用奠定了良好的基
在科学技术快速发展的当下,教育方式不断优化,美术教学领域对微课的应用给予了高度重视。微课的诞生丰富了美术的教学资源,美术课堂的学习氛围也更加轻松舒适。微课结合了动
目的:探讨选择合理浓度的肝素盐水进行封管,防止血液透析留置导管堵塞,减少副作用。方法:将我院行中心静脉置管进行血液透析的患者分成试验组和对照组各45例,试验组应用浓度
本文结合广州市某汽车文化商贸中心结构设计实例,通过方案比选,选用钢筋混凝土桁架结构解决了大悬挑的问题,以供同行参考。
弱爆破是挖掘过江通道工程中常用的爆破技术,为了减小爆破对地表工程的影响,有必要对弱爆破技术的相关施工参数和施工原则进行分析。本文主要对超浅埋过江通道工程中的弱爆破技
信息技术课堂中的任务,主要指利用信息技术手段完成相应的事项,在计算机上编辑文章和图画,做电子表格,制作多媒体课件,建设与维护网站等。任务应该具有真实性、整体性、开放