文本自动摘要技术的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:InsidedotNET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,可获得的信息越来越多.信息的爆炸也带来了"信息负担"过重的问题.我们可以获取太多的信息,以致没有足够的时间什么读一遍,但有时候我们又不得不根据这些信息作出重要的决定.在这种情况下,自动文摘就显得必不可少.该文介绍了作者在攻读硕士学位期间所做的自动文摘研究.该文首先对自然语言处理以及自动文摘的技术进行了综述,随后提出一个句子被抽取成为摘要句必须满足的三个条件:1)信息量大、概括性强,所含信息在文本中比较重要;2)与话题(或用户、任务)相关;3)与其他摘要句之间信息冗余小.判断一个句子是否满足这三个条件,是作者研究工作中的中心内容.该文亦以这三个条件为主线,创新地提出了多种自动文摘的方法:自动文摘中的机器学习方法;基于实体名的自动文摘方法;位置与其他特征之间的互训练算法;基于矢量模型的文本自动摘要方法;尝试将句法分析技术用于文摘的自动生成.对这些方法,作者既做了理论上的分析,还通过实验对其性能进行评价.在对自动文摘的方法进行探索的同时,作者先后开发了多个自动文摘系统.这些系统在2003年和2004年两届文本理解会议的统一评测中,取得了令人鼓舞的成绩.
其他文献
计算机容错系统是由若干台计算机按照一定的容错原则通过资源冗余,配置构成冗余结构的计算机系统,当系统出现一定的运行性故障时,能够依赖系统内驻的容错能力保证系统连续正确地
“通用电力企业生产信息服务平台”是针对电力企业、面向管理层的信息平台,具有通用性好、灵活性高、可扩展性强的特点,把现场工业控制网中的实时生产数据引入到管理网,解决了过
工作流管理系统是近年来在计算机应用领域发展最为迅速的技术之一,工作流技术的主要特点是:过程的自动化处理,这些过程包含以人和以机器为基础的活动相结合,特别是对那些与IT
随着无线通信产业技术的发展,特别是近年来,3G和4G技术逐步被应用、智能终端设备的普及化,人们对高速率数据业务的需求呈指数增长。但是当前频谱资源由国家统一分配,频谱资源的分
应用服务器是当前基于Web的软件开发的重要的支撑平台。为了满足多层体系结构下Web客户对数据库管理系统DM简洁透明的访问,本文设计并实现了基于J2EE的Web应用服务器—DM WAS
入侵检测技术是在传统的安全策略无法满足日益严峻的安全需求的情形下产生的。近年来,网络以令人难以置信的速度向前发展,网络技术更是日新月异,大型网络以及千兆以太网的出
随着网络带宽的快速发展,大量的数据不但增加了入侵检测系统的负荷,而且使系统将重要的处理资源花费在不相关的数据上,严重影响了入侵检测的效率。为了提高入侵检测的效率,本
面向对象建模是软件开发领域的一个重要研究方向。统一建模语言UML是一种定义良好、易于表达、功能较强的面向对象建模语言。在软件开发领域,基于UML的面向对象建模方法正得
论文对当前地理信息系统(GIS)中存在的多种数据模型进行了分析.从人们对地理世界的认识出发,对GIS中的时间和空间等一些重要概念做了论述,在此基础上讨论了GIS的概念数据模型
微核细胞的智能识别是一个较大难题。双核细胞的分割和识别是其很关键的步骤之一。根据细胞显微图像的特点,整个算法分成三个主要部分:细胞核分割、细胞质的分割、双核细胞的