论文部分内容阅读
随着科学技术的飞速发展,越来越多的学术论文在期刊、会议上发表,或者直接在互联网上发表以供交流。同时,互联网技术的发展和数字图书馆的兴起为科研人员获取学术论文提供了极大的方便。然而如何在大量的资料中找到最有价值的信息,如何把握学科的最新发展动态成了研究者最关注的问题。
国内外的一些文献机构利用自身的文献资源进行了相关的理论和实践的研究,如汤姆森科技信息集团的ESI数据库,国内的CNKI、NSTL等。搜索引擎Google、百度也开发了相关的产品对互联网的搜索趋势进行了跟踪。归纳起来,对科学的监测对象主要有四个方面:科研成果的产出者、科研赞助者、科研成果本身以及学科。
在进行学科监测时,研究的问题可分为两类:结构化的和趋势化的。结构化的分析是指对以往的研究成果进行分析,而趋势化的分析是指对新主题或研究趋势进行发现。目前学科新主题发现的主要方法有文献计量法、同被引分析法、内容分析法、新关键词发现技术和用户使用数据分析法。笔者在这些方法的基础上,利用自然语言处理技术,借鉴信息检索中向量空间模型的思想,设计了一个新主题发现算法。
笔者设想利用信息检索中向量空间模型的相似度计算方法来判定新文献和已知文献的相似程度,从而判定新文献是否代表了一个新主题。但在实际操作中,这种方法是不可行的,因为文献数量十分庞大,因此要首先对文献进行聚类操作。因为很多文献探讨的是同一个主题,先将主题相同的文献进行聚类,然后再将新文献和类进行比较,可以大大降低比较的次数。判断一个文献是否属于某一个主题依然可以用相似度计算的方法。
首先用高被引论文做为领域分析的样本。任何一个领域的高被引文献都可以作为这个领域的代表。在提取了样本之后,对文献进行聚类操作。然后对每篇文献提取特征向量。特征向量包括关键词和共现词语两部分。采用逆文献频率加权法对关键词进行加权处理,并提取出关键词。对共现词语的识别采用判定模板的形式,并对其也赋予一定的权值。最终所有文献的关键词和共现词语的总和代表了一个子类的特征向量。最后用向量空间模型的相似度计算方法将新文章和已知主题类进行比较,从而发现代表新主题的文章。