基于引文的英文文档文摘自动生成方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jywaco
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于一名科研工作者而言,快速进入一个新的研究领域是痛苦的,因为这需要阅读大量相关的已有文献。一个快速高效的办法是阅读该领域的文献综述,从这类文章中可以快速了解该领域的历史背景、研究现状和未来趋势。但优秀的文献综述数量较少,并非在各个领域各个方向都能找到,其原因是一篇优秀的文献综述一定是出自该领域的一位资深研究者之笔,并且费时费力。所以近年来,越来越多的学者开始研究自动文献综述系统,只需要用户输入其感兴趣的研究领域,系统便能生成一篇该领域的文献综述。作为这项研究的重要内容之一,如何为单篇文章自动生成摘要自然也得到了学术界的高度重视。有研究表明,在引用同一篇文章时,不同的作者往往会关注不同的方面,因此,对一篇文章的引文集合进行合理分析,就可以知道这篇文章做了什么工作,有哪些贡献,以及对其研究领域产生了怎样的影响。本文首先了介绍了一种已有的使用引文进行自动文摘的方法,通过对该方法进行分析,针对其存在的一些缺点和不足,提出了一种改进的方法,改进主要体现在:1.在生成的摘要中加入比较信息。在原方法生成的摘要中,仅包含贡献信息,即描述目标文献所做工作或所取得成果的信息,但忽略了施引文献中蕴含的比较信息,即描述自己工作和已有工作之间有意义的不同之处的信息,通过收集并分析比较信息,便可以把握一个研究领域的发展脉络,对文献综述自动生成意义重大,因此,在本文提出的方法中,将比较信息加入到了生成的摘要中。2.使生成的摘要包含更多更重要的贡献信息。在原方法生成的摘要中,包含贡献信息的多少及包含贡献信息的重要程度直接取决于聚类是否精确。本文使用与原文不同的聚类方法,提高了聚类的精确度,从而使生成的摘要包含更多更重要的贡献信息。3.使用更加准确的引文权重计算方法。原方法中,在得到聚类结果后,需要从每个类中抽取最具代表性的引文来组成摘要,因此需要计算引文的权重,原文在计算权重时只考虑了引文之间的文本相似性,在此基础上,本文还综合考虑了施引文献的被引数和施引文献通讯作者的影响因子,从而使权重的计算更加全面。4.使用更加合理的评价方法。原方法在对实验结果进行评价时,根据实验结果来制定评价标准,评价结果难免有失公允,本文使用了更加客观合理的评价方法。
其他文献
本文将多智能体系统和面向服务的架构的思想架构相融合,将其设计理念引入到微网EMS的管理与控制中,基于IEC61970国际标准,结合微网系统本身的特点,整合了整个微网的公共信息
随着互联网规模的不断扩大及其应用的多元化发展,对网络性能监控和运行管理的要求越来越高。其中对网络流量的测量与分析是网络管理中不可缺少的组成部分。网络管理员可以利
数据质量是保证数据能够有效地发挥作用的关键。数据质量的保证贯穿于数据的整个生命周期,它是一个系统过程,是一个质量评估分析和各种数据清洗方法相结合的不断反复的过程。本
近年来,随着IT技术的发展,越来越多的信息系统在各企业中建立起来,各企业内部通常都是通过这些系统来管理存储相关业务数据。通过几十年的发展积累,企业内需要管理存储的数据变得
Native XML数据库是随着XML的广泛应用而产生的,它专门用来存储和管理XML数据。Native XML数据库具有一般数据库的特性,但它的内部存储是基于XML数据的树形结构。它所存储的XML
随着当今社会的迅速信息化,各种多媒体信息资料飞速发展。音乐作为一门艺术,已经成为人类生活中必备的部分。一直以来,音乐都是人们表达情感的渠道,可以为欢乐而歌,可以为悲
随着WWW上资源的与日俱增,如何使用有效的方法从中获取所需的信息,成为研究人员所面临的一个重要问题。Web挖掘就是从Web上的数据(如Web日志、Web页面内容)发现用户的浏览模式
题库系统的建设和运用是促进教学技术改革和提高教学效率的一项重要工作。本文结合中学教育对题库系统的实际需求,从保障系统的安全性和提高成卷的质量这两个角度出发,运用基于
目前没有一个搜索引擎能够覆盖所有的WWW资源,而且大部分搜索引擎的索引平均只能涉及到整个WWW资源5%-20%左右。由于各个搜索引擎使用了不同的索引技术和信息收集技术,使得各
因特网、移动通信技术和计算机等技术的完美结合创造了移动电子商务,移动电子商务以其灵活、简单、方便的特点将受到消费者的欢迎。 移动电子商务成功在于安全,当前移动电