多文档文摘相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:MickeyMouse01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,如何有效地组织和分析信息,提高人们获取信息的效率,成为满足人们需求的关键问题,这使得多文档文摘技术成为研究热点,其进步推动了相关技术的发展。自动文摘是为了达到特定用户或任务要求,从信息源中提取重要信息、生成精简版本的过程。多文档文摘是针对信息源由多篇关于同一主题文档组成的文档集合。  多文档文摘与单文档文摘相比面临冗余信息多、压缩比大和文摘可读性差等问题。生成一篇好的文摘,不但需要对文档进行深入地分析,还需要有效的文摘句选择与排序。文摘句的选择决定了最终文摘的组成成分,文摘句的排序决定了文摘的可读性,这两者都直接影响生成文摘的质量。评测是自然语言处理技术研究与发展的一个关键部分,评测标准的规范和资源的共享可以使研究成果的比较合理化,对技术的发展起到促进作用。文摘的自动评测一直是个难点,多文档文摘由于引入大量相关、相似信息,进一步增加了评测的难度。针对上述问题,本文从如下几个方面进行了研究:  1.研究了基于主题签名的多文档文摘方法。探讨了基于主题签名的多文档文摘的关键技术,实验验证了基于主题签名的多文档文摘方法的有效性,以及各关键技术对多文档文摘性能的影响。加深对多文档文摘的理解,为后续相关研究提供了很好的基础和实验平台。  2.研究了多文档文摘句选择与排序技术,验证了英文多文档文摘技术向中文的可移植性。首先分析目前多文档文摘句选择方法及存在问题,提出了以文摘结果整体选优为目的采用多候选文摘和两级文摘句选择策略的两种文摘句选择方法,验证了所提方法有效地提高了多文档文摘的性能。其次研究MajorityOrdering句子排序方法及其存在的问题,提出了基于内聚的句子排序方法,在一定程度上避免了话题中断,从而使文摘更加连贯。最后验证了本文提出的英文多文档文摘相关技术在中文文摘上也具有较好的结果。  3.研究了面向文档集合类型的多文档文摘方法。选取具有代表性的多文档文摘方法进行分析,根据文档集合涉及到的事件类型、文档集合涉及的领域分析并指出文档集合类型直接影响多文档文摘方法生成文摘的质量,且多事件文档集合类型是导致多文档文摘质量下降的原因之一,所以提出了一种面向多事件文档集合类型的多文档文摘方法。所提方法通过对文档集合内容主成分获取确定文档集合内容的主线和辅线,并采用基于主线与辅线的文摘句选择方法生成文摘。实验结果表明,所提方法在多事件文档集合上生成的文摘质量与目前好的多文档文摘方法在单一事件文档集合上生成的文摘相当,证明了所提出方法的有效性。  4.研究了基于内容相似度的文摘自动评测方法。着重分析了基于内容完整性的评测方法的优缺点,在此基础上,提出基于内容相似度的文摘自动评测方法。在对较大规模语料进行实验后,引入统计相关分析,验证了该自动评测方法的有效性。对比不同项权重的评测结果,证明了TF-IDF权重信息的引入改善了缺少评测语料的多文档文摘自动评测的质量。  综上所述,本文主要贡献在于从文摘整体选优角度提出了有效的文摘句选择方法。提出了基于内聚的句子排序方法,在一定程度上避免了话题中断,使文摘更加连贯。在一定规模语料上对主流多文档文摘方法分析指出文档集合类型直接影响多文档文摘质量,提出了可行性改进方法。探索文摘自动评测方法,提出并验证了基于内容相似度的文摘自动评测方法的有效性。
其他文献
Agent技术是近年来飞速发展和广泛应用的一项技术,Agent是具有自主决策能力、相互协作能力和一定的智能性的自治实体,利用Agent可以解决Web服务等技术存在的功能单一,无法主
无线局域网(WLAN)的普及以及流媒体日益广泛的应用,特别是实时业务的迅猛发展,使得在WLAN上实现服务质量(QoS)有着迫切的需求。然而,由于信道接入机制的缺陷,WLAN一直难以提
本文从空天信息网的特点进行分析,分析论证了网络管理对空天信息网建设的重要性,从而在现有网络管理技术的基础上得出了空天信息网网络管理的功能需求,根据这些功能需求对网络管
随着硬件技术和计算机图形学技术的迅猛发展,越来越多的专家学者都致力于虚拟现实领域的研究。目前对于陆地场景中的植物仿真建模已经有了比较深入的研究,而虚拟水底环境中的动
本文选题来自江苏科技大学“船舶工业集团军贸基金”重点科研项目---舰船综合后勤保障系统研究。综合后勤保障(Integrated Logistics Support,ILS)在美、英等西方发达国家的军队
研究表明,互联网中大约有30%的网页是冗余信息,即这些网页和其余70%的网页文档互为近似重复或完全重复。由于数字文档易拷贝,使得各种信息资源以飞快的速度在增长。信息检索的目的
基于二部图的低密度校验(LDPC)码由于其低译码复杂度和可任意逼近香农限的良好性能而成为目前最佳的编码技术之一,越来越受到众多编码研究学者的关注。二部图的构造是LDPC码
软件项目需求的日益复杂和频繁变更,要求在系统开发时能通过合理的层次划分和先进的开发技术保证开发质量、提高开发效率以及为程序的升级和移植提供便利。 能够充分利用己
近年来互联网技术蓬勃发展,各个领域中新技术与新方法层出不穷,致使大量的新词汇出现,不同领域的专业词典库急需完善,因此对特定领域新词的准确识别成为了需要重点研究的问题。新
随着公众信息系统的快速发展,信息安全越来越引起人们的注意。电话作为最普遍的通讯工具,鉴于某些特殊场合和某些用户特殊的工作性质,加密保护成为一种需求。当前使用的电话