基于自适应聚类的中文自动文摘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yywachself
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘是自然语言处理领域的一项重要的研究课题。作为解决目前信息过载问题的一种辅助手段,它能在一定程度上弥补传统的信息检索技术在应对信息过载危机时所表现出来的种种缺憾,帮助用户提高信息检索的速度,节省重要信息的浏览时间。 中文自动文摘的研究如火如荼地开展了近20年,令人鼓舞的成果层出不穷。然而,在欣然地享受着这些精彩成果的同时,若干可能会影响自动文摘效果的潜在问题正逐渐被越来越多的研究人员所重视。 以句子权值排序作为抽取依据的文摘方法是中文自动文摘领域广泛采纳的一种典型方法,它简单易行且适用面宽。然而由于摘要对象的多样性,它的缺陷也正变得日趋明显。其主要表现在它所产生的文摘往往很难在主题覆盖度与冗余之间达到某种平衡,常常出现主题遗漏或内容冗余等问题。因此,针对不同题材文本具有不同的潜在主题结构这一现象,如何自适应地发现不同文本潜在的主题将会对现有文摘方法的摘要效果产生积极的影响。此外,在采用统计学方法构造自动文摘系统的过程中,建立各级语言单元的特征向量往往是一个基础性环节。而在实际的摘要实验中,我们发现建立的特征向量的维数常常偏大,达到几百维甚至上千维,而这无疑会制约后续摘要算法的效率。因此,对这些特征向量进行一定程度的降维处理将必不可少。 致力于对上述问题的解决,我们尝试性地提出了一种基于自适应聚类的中文自动文摘方法。在该方法中,我们采用了如下四种关键技术: 关键技术1 基于无监督特征抽取的文本各级语言单元的特征向量表达 关键技术2 基于自适应段落聚类的文本潜在主题的自动发现 关键技术3 基于主题语义相似度计算的文本主题代表句的自动选取 关键技术4 基于表达熵的文摘冗余的量化评价 为了验证提出的中文自动文摘方法的可行性和有效性,我们从国家语委现代汉语语料库中随机选取了30篇不同题材的文本作为实验文本,分别采用提
其他文献
管理信息系统是实现企事业管理现代化的有效手段,是管理科学发展的一个重要领域,它对国民经济的发展、企事业单位有效的运行有着重要的作用。 本论文以新疆地税管理信息系
概率安全分析是一种对系统安全进行定性和定量分析的综合评价技术,涉及大量的数据和复杂的计算,在现代系统日益复杂的情况下,完全由手工完成这些工作是非常困难的。使用计算
  本文针对传统安全工具存在的问题,安全扫描器的基础上,通过对网络攻防的深入研究,提出了一个新的安全工具“漏洞自动检测及修补系统”,该系统专门为个人计算机用户设计。与现
在信息大爆炸的知识经济时代,如何解决数字签名的授权以及数字信息的安全传递成为当前需要迫切解决的问题,代理签名是解决这类问题的一种最有效和最具潜力的技术,同时,它又是一个
在各类工业生产控制现场,会有成百上千条的信号电缆,承担着信号传输的任务。这些电缆通常埋于地下,易受到周围物体的碰撞、挤压、以及有害物质的腐蚀,使其绝缘体受到损伤,绝缘强度下降。而保证电缆对地绝缘性能良好是一个关系到信号数据可靠传输、工业现场安全运行的重要因素,因此,在线测量电缆的绝缘参数,对掌握准确、可靠的现场数据,保护电网与各类监控系统的安全是很有必要的。 本文中所介绍的电缆绝缘测试仪是以
随着信息处理理论以及计算机技术的发展,计算机视觉的研究得到更加广泛和深入的发展,计算机视觉领域中的目标识别和跟踪是其中最重要的内容,它是融合了数字图像处理,模式识别以及
住宅社区智能化是目前国内、外住宅建设领域和信息产业领域非常热门而又前沿的话题,也是能否实现住宅产业信息化的关键问题之一。其中住宅社区智能化的规划设计和系统集成是
随着电子技术的飞速发展,计算机的软、硬件已日新月异,网络环境也发生了巨大的变化,电话银行也必须跟随计算机技术的发展进行改进。 本文面向合作银行等中小型金融机构,以
随着以太网的迅速发展,网络接入成为人们关注的重点。802.1x是基于端口的接入控制协议,正在逐步被各个厂商接纳用来构建接入管理系统。  本文对802.1x协议和其他常见的接入认
企业在发展过程中积累了大量数据,并在实施信息化的过程中,采用了不同的数据管理系统,这些系统从简单的文件数据库到复杂的网络数据库,构成了企业的异构数据源。为了解决异构数据