论文部分内容阅读
对于一名科研工作者而言,快速进入一个新的研究领域是痛苦的,因为这需要阅读大量相关的已有文献。一个快速高效的办法是阅读该领域的文献综述,从这类文章中可以快速了解该领域的历史背景、研究现状和未来趋势。但优秀的文献综述数量较少,并非在各个领域各个方向都能找到,其原因是一篇优秀的文献综述一定是出自该领域的一位资深研究者之笔,并且费时费力。所以近年来,越来越多的学者开始研究自动文献综述系统,只需要用户输入其感兴趣的研究领域,系统便能生成一篇该领域的文献综述。作为这项研究的重要内容之一,如何为单篇文章自动生成摘要自然也得到了学术界的高度重视。有研究表明,在引用同一篇文章时,不同的作者往往会关注不同的方面,因此,对一篇文章的引文集合进行合理分析,就可以知道这篇文章做了什么工作,有哪些贡献,以及对其研究领域产生了怎样的影响。本文首先了介绍了一种已有的使用引文进行自动文摘的方法,通过对该方法进行分析,针对其存在的一些缺点和不足,提出了一种改进的方法,改进主要体现在:1.在生成的摘要中加入比较信息。在原方法生成的摘要中,仅包含贡献信息,即描述目标文献所做工作或所取得成果的信息,但忽略了施引文献中蕴含的比较信息,即描述自己工作和已有工作之间有意义的不同之处的信息,通过收集并分析比较信息,便可以把握一个研究领域的发展脉络,对文献综述自动生成意义重大,因此,在本文提出的方法中,将比较信息加入到了生成的摘要中。2.使生成的摘要包含更多更重要的贡献信息。在原方法生成的摘要中,包含贡献信息的多少及包含贡献信息的重要程度直接取决于聚类是否精确。本文使用与原文不同的聚类方法,提高了聚类的精确度,从而使生成的摘要包含更多更重要的贡献信息。3.使用更加准确的引文权重计算方法。原方法中,在得到聚类结果后,需要从每个类中抽取最具代表性的引文来组成摘要,因此需要计算引文的权重,原文在计算权重时只考虑了引文之间的文本相似性,在此基础上,本文还综合考虑了施引文献的被引数和施引文献通讯作者的影响因子,从而使权重的计算更加全面。4.使用更加合理的评价方法。原方法在对实验结果进行评价时,根据实验结果来制定评价标准,评价结果难免有失公允,本文使用了更加客观合理的评价方法。