基于统计的多文档关键短语和文摘抽取研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wei_357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。多文档关键短语和文摘用短语和句子的形式反映多文档主题内容。关键短语主要由多词单元短语的形式出现,文摘将同一主题的文档汇总抽取重要句子组成。本文首先介绍了短语识别的方法,因为短语识别的质量直接影响关键短语和文摘抽取的结果。其次重点介绍了关键短语和文摘抽取的三个系统,S-MMR系统是把比较成熟的单文档关键短语和文摘抽取方法应用到多文档抽取系统中;G-HITS系统是用基于链接分析算法同时计算句子和短语的重要性,这两个系统在文摘生成时用MMR计算避免抽取到冗余信息,取得了比较好的实验结果。上面二个关键短语和文摘抽取方法在相似信息处理上采用的是MMR技术避免文摘生成冗余,在吸取这两个方法优点的基础上结合共聚类算法提出基于共聚类的多文档关键短语和文摘抽取方法,该方法利用了相似信息,这是本文的重点也是创新点。系统在短语识别的基础上首先构建句子指向包含短语的有向图,把句子和短语的有向图转化为等价的权重矩阵。在句子和短语的权重矩阵上运用共聚类抽取算法,算法在迭代中依次用基于图的链接分析算法计算句子和短语的权重及对句子和短语分别聚类,在此过程中权重计算和聚类互相影响,句子和短语的权重及类别变化互相影响互相增强,最后达到全局最优权重即聚类不在变化时退出迭代。实验结果表明,基于共聚类系统抽取的关键短语和文摘质量较高,运行高效。在公共的评测语料DUC2004上用ROUGE评测方法,在评测指标ROUGE-1的Average-F值是38.459%,ROUGE-2的Average-F值是0.09382%,高于其它自动文摘。
其他文献
无线传感器网络是21世纪最重要的技术之一,能够广泛的应用在智能交通、国防军事、环境监测、医疗卫生、空间探索等许多领域。节点自定位技术是无线传感器网络的主要支撑技术
随着信息技术的飞速发展,各种计算机软件的功能越来越强大,加之商业组件(COTS)的大量应用,随之出现的健壮性失效问题也越来越多。在一些关键行业(如民航订票系统、银行结算系
目前对于虚拟社区的研究主要有两个方向:一个是无场景支持的用户交流平台;另外一个是有场景支持的,通常提供用户绚丽的社区场景漫游。这两个方向都有其缺点,首先,无场景支持
随着各领域信息化建设的不断发展,许多政府部门或企业都开发和使用了一些独立的信息系统。在数据量和业务需求不断增加的同时,旧的信息系统会面临升级、替换的问题,而旧系统所积
随着计算机软硬件技术的不断进步,嵌入式系统得到快速发展,并广泛应用于工业控制、信息家电、通信设备、智能仪器仪表等领域。同时,系统的复杂性不断增加,导致嵌入式系统软件的规
系统、软件及程序在运行过程中,都有可能由于缓冲区溢出的问题导致程序行为异常。恶意用户利用服务程序中的缓冲区溢出漏洞,攻击目标信息系统,破坏、修改、窃取信息系统中的敏感
学位
随着Internet的快速发展,网络安全问题日益突出,防火墙技术成为保障网络信息传输安全的有效手段。但传统的防火墙系统难以高效地过滤内容信息,易成为整个网络的性能瓶颈。因
从采用IRC协议的“egg drop bot”到高度模块化的AgoBot,僵尸程序从最初的网络聊天室辅助软件,逐渐成为威胁网络安全的主流恶意软件之一。在僵尸网络的攻防博弈中,IRC协议被H
面对传统的数据挖掘研究,以可视化的形式对数据挖掘的研究有其独特的优势。利用可视化技术可以使用户更好地了解数据挖掘的全部过程,包括从数据预处理的可视化展示,到数据挖掘过
学位
路由协议是无线传感器网络研究的重点之一,其主要的设计目标是降低节点能量消耗,延长网络的生命周期。本论文首先介绍了无线传感器网络的体系结构、关键技术及应用前景,然后介绍