基于文本结构分析的中文自动摘要技术

来源 :南京大学 | 被引量 : 0次 | 上传用户:crossskyfreely
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对当今日益增多的在线文本,如何压缩信息量,从而帮助人们快速有效的选择和利用感兴趣的信息,成为文本处理领域所关注的焦点。文本摘要作为一种重要的文本处理技术和文本压缩技术,旨在将全文压缩为一个意义完整、简洁连贯的短文,便于人们进行快速阅读和选择信息,因此它具有广泛的应用前景和较高的研究价值。 本文首先介绍了自动文摘的研究情况和存在的问题。自动文摘采用的方法可以分为基于物理信息分析、基于自然语言理解、基于结构分析等几种方法。经过分析,我们认为:由于利用文本结构分析既能得到较高的文摘质量又能保证文摘生成不受领域限制,所以是提高文本摘要质量的一个切实可行的方法。但是,从目前国内的研究来看,基于文本结构的文摘方法的研究较少。 本文的目的就是建立一个对于大多数领域适用的基于文本结构分析的文摘系统,使之能高效、准确、精炼地分析文本的物理结构和逻辑结构,提取出文章的主题思想,生成文摘。本文设计了一个基于文本结构分析中文自动摘要系统模型。并根据该模型,对基于结构分析的摘要方法中的关键技术进行了深入的探讨,它们分别是: 中文自动分词技术:中文自动分词是中文文本处理的一个特殊问题。本文中,根据文本摘要等语义信息处理对中文分词的要求,设计了一个多步处理的分词方法:利用中文分词领域新的研究成果,将歧异处理分为真歧义和伪歧义来分别处理;并对现有的双向最大扫描算法进行了改进,降低了算法的复杂度,提高了分词的准确度和速度。 特征抽取和表示:文本特征抽取是文本处理的基本操作,特征项是词汇形式的文本摘要,本文将常用于文本分类中的VSM模型应用到文本结构分析之中,建立项/段落特征矩阵。考虑到VSM模型中忽略了项之间的语义相互关系,即“斜交”现象,采用基于潜在语义分析的特征向量提取方法。充分利用词汇间暗含的语义关系,按照语义重要性来抽取特征项。 文本层次分析:基于文本层次划分的文本结构分析是本文研究的重点。本文认为,层次是介于全文和段落之间客观存在的语言单位,它是若干相邻段落组成的序列,体现文章的逻辑结构。文本结构分析的主要工作是进行文本层次的划分和分析。本文给出了文本物理结构和逻辑结构的表示。提出动态的有序文本层次划分方法:该方法主要思想来源于聚类方法中的动态聚类方法,针对文本层次结构的组成特点,吸收了有序聚类算法中段落顺序性的思想,在保持段落顺序性的前提下进行动态聚类,划分文本层次。这种算法既考虑到文本组织的有序性,又使得层次划分可以灵活调整。 在这些研究的基础上,根据文本结构分析的结果,构造了一个表示文本结构的文本结构树,通过对文本结构树的深入分析,设计实现了关键句抽取和文本摘要生成算法。并进行了试验,取得了较好的效果。
其他文献
径流小区是水土保持领域重要的研究方法,而坡面径流量是最重要的观测参数之一。传统测量方法用集流桶汇集径流,然后人工测量集流桶中的水量。该方法消耗大量的人力物力,暴雨
AbstractCoordination and synchronization among processes and/or network sites are of the fundamental problems in the distributed systems. To achieve correct and
本文对基于模型的诊断方法在教育系统中的应用进行了研究。文章描述了GDE的改进版本怎样被应用在诊断学习者的问题求解行为中,并且用此框架来构造行为预测。提出了可适用于基
本文主要介绍了J2EE体系结构和其Struts开发架构,并结合中国国际贸易仲裁委员会的企业信息管理系统介绍了基于Struts模式的Web应用程序的设计和开发方式.本系统在Struts模式
开放式数控系统是下一代数控系统的主要发展方向,嵌入式数控系统的出现为开放式数控系统的研究带来了一种新的解决方案。目前嵌入式数控系统还处于研究阶段,大多数采用“嵌入式
构件技术是目前最重要的软件开发技术,是实现软件复用的关键因素.而基于构件的软件开发技术则是将软件复用思想融入到了软件开发的生命周期中,从最大程度上实现了软件复用.该
《中华人民共和国电力法》规定,电力部门必须向用户提供满足质量要求的电能.随着社会的发展和用电需求的增加,该项工作更加显得尤为重要!就此问题,该文首先简要介绍了电能的
OSPF是一种典型的链路状态路由协议,运行OSPF的路由器之间通过交换链路状态通告来获得路由信息.但是很多路由器对交换的信息要么没有采用加密和认证,要么仅仅是明文口令认证,
学位
该论文主要研究了流化视频编码中可伸缩视频编码方案和视频流切换技术.在充分汲取现有精细可伸缩视频编码技术和码流切换技术的优点的基础上,针对它们在编码效率、灵活性或带