多文档自动文摘关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xuxu517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多文档自动文摘技术是对内容相关的多篇文章进行分析,并根据它们所描述的主题脉络或用户的兴趣导向来抽取出重要的信息或用户感兴趣的信息,并自动生成一篇指定长度的文摘。作为集成语言学、计算语言学、人工智能、信息系统等多门学科的应用技术,多文档自动文摘的研究对于推动上述领域技术的发展有着重要意义;同时,一个可行的多文档自动文摘系统对于加快人们对网络信息的处理速度与准确率具有重要的实际应用价值。为此,本文进行了基于话语结构的通用型多文档自动文摘的研究,首先从各级文本单元的话语关系研究入手,研究跨文本单元的相似关系识别、文本时间信息抽取以及事件的时序关系识别、文本内部修辞结构识别以及文本集合的层次主题的识别等,并提出了基于修辞结构理论的多文档表示结构(Multi-document Rhetorical Structure,简称MRS),该结构通过系统地描述不同层面的文本单元之间的相互关系,以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现并行融合,在此基础上,进一步研究基于MRS的文摘句抽取、排序、冗余消除、文摘生成等一系列算法。本文的研究主要包括以下内容:第一,本文对汉语时间信息的获取以及时间语义计算进行了研究,并在此基础上研究了时间推理以及事件时序关系识别。文本中的时间信息在多文档结构中节点位置的确定、多文档自动文摘中的关键事件识别、事件排序以及文摘句的内容重组方面具有重要的意义,本文根据中文文本时间信息表达的特点,将承载时间信息的短语按照功能的不同分解成若干容易识别、并且语义单一的“小”的成分,并按照结合规则来组合这些元素成为时间表达式。由于这些元素本身具有时间语义属性,因此在结合的过程中就可以计算最终时间表达式的时间语义值并计算表达式之间的时序关系。第二,不同文章的片段之间存在着语义相似关系,这种重复信息是多文档自动文摘的重要来源。由于这种片段间语义相似度计算不能简单地沿用全文相似度计算方法。因此本文提出一种基于多特征融合的片段相似度计算方法。方法充分采用多特征融合思想尽可能多地挖掘片段内的词法、语法、语义特征,并采用机器学习方法自动融合这些特征。从而避免了传统的以词或概念为基本元素的单一的文本表达所带来的信息匮乏、区分性不强的问题。在特征融合方面,本文采用累积logistic回归分析模型来自动拟合各个特征同最终的片段相似度之间的关系。该模型不但具有较好的拟合特性,而且不受特征数量的限制,可以很方便地从模型中添加新特征或删除已有特征,具有较强的扩展性。第三,主题自动识别是多文档自动文摘的一个关键技术,本文通过对文本集合的主题分布以及主题的范围分析,提出了层次主题的概念,采用层次树状的主题结构来代替传统的单层主题集合。我们认为这样的划分更加能够反映原文档集合的本来面貌。为此,我们采用层次聚合聚类方法来建立文本集合的层次主题树,并采用样本密度曲线角点识别方法来自动获得聚类终止阈值。通过多文档自动文摘结果评测显示层次主题的引进可以有效地提高文摘质量。第四,对于基于结构的文摘技术来说,建立合理的形式化表示结构是后续研究工作顺利进行的基础。Dragomir R. Radev介绍交叉文本结构理论(Cross-Document Structure Theory,简称CST)时提出了两个基本数据结构:多文档立方体和多文档图,前者描述了文本单元之间的时序关系;后者描述了不同层面的文本单元之间的逻辑关系。这两个结构需要互相补充,互相支撑,才能完整地表达出文档集合的真实面貌。本文借鉴了CST的思想,提出了一个多文本修辞结构(MRS),并在此基础上提出了候选文摘句的抽取、文摘句排序及文摘生成等一整套算法。MRS由代表语言单元的节点和代表语言单元之间相互关系的连接弧按照特定的方式结合而成;单元之间的相互关系包括文档内部的修辞关系和文档间的语义相似关系,前者决定了文本单元在文章中的地位,后者体现了节点与文档集中的其他节点的相关程度,另外文本单元的时间信息确定了文档集描述的事件流的发生及演变时间。因此,综合考虑这三方面因素就能最终确定文本单元在文档集中的重要程度。最后,本文建立了一个多文档自动文摘系统的定量评测体系,在标准评测语料标注方面采用标准文摘句集合来替代单一的标准文摘句,提高了文摘准确率和冗余度评测结果的合理性。实验研究显示,基于MRS的多文档自动文摘系统可以获得较高质量的文摘。
其他文献
后发赶超的贵州把高等教育放在前所未有的战略位置来发展,独立学院经过十几年的发展已在贵州省高等教育在校生人数中占据三分之一以上。高校思想政治工作是一项铸就大学生灵
以环境哲学为研究视域的文化自觉是站在明确的生态整体主义立场的学科文化自觉。它以哲学为衔接点,把环境与广义的文化联系在一起,努力为环境哲学寻求新的增长点。而弱的非人
“惟歌生民病 ,愿得天子知”是白居易现实主义诗歌创作的可贵主张。从他所生活的时代、经历和政治思想等方面可知其这一主张提出的根源。《秦中吟》和《新乐府》更能具体体现
(一) 1989年6月,党的十三届四中全会建立了以江泽民同志为核心的党中央领导集体。江泽民同志主持党中央工作之后,高举邓小平理论的伟大旗帜,团结党中央领导同志,认真贯彻党的
2002年6月16日上午,正当我聚精会神细听云南省侨联钟乔光副主席讲授《侨务法律、法规》时,省社会主义学院郭玉萍副处长急忙喊我出去说:“有一位泰国朋友病了,您能不能帮他看
从单线生产能力、操作弹性、工艺条件、计算机控制、EG回收、EG蒸汽喷射系统和其它几项技术改进方面阐述了吉玛PET连续工艺技术的特点。认为吉玛公司装置的运行效果比较理想,
随着我国高校盲目扩招形势的推入和当代大学生从80后向90后转变的新局面的来临,一种新的挑战在向我们逼近,高校学生管理工作者也面临着前新的难题,传统的管理模式也已经不再适应
股东派生诉讼与特别诉讼委员会作是完善公司内部治理结构的重要机制,公司面对是否应当终止一个由股东提起的派生诉讼的问题,以及法院面对公司做出的相应决定时,应当以何种标准进
小商贩是我国经济高速发展的必然产物,因为其是无资产的中下阶层的一个出路。然而小商贩的不断增多,以及由其产生一系列问题越来越严重,矛盾激化。究其根本原因,就是小商贩的地位
明初,镇守云南的沐氏家族和谪滇诗人之间保持着一定的交往。沐氏家族礼贤下士,喜好风雅,谪滇诗人则创作了很多歌颂沐氏家族功业的诗文,同时谪滇诗人的题画诗说明他们还可能参