论文部分内容阅读
互联网包含数量巨大的文件信息,从而搜索引擎所返回的搜索结果可能包含上千或者上百万条的记录。这样就必然需要一种排序算对搜索结果进行排序,使得人们能够在第一时间看到最符合要求的结果。一般的搜索引擎只会采用一种排序算法来对所有情况的搜索结果进行排序,导致所有的返回结果将以同样的规则排列。这样的排序方式可能不利于一些特殊类型的文章,比如一些科学研究论文。虽然人们创造了一些专门的搜索引擎用来搜索、索引和排序那些特殊类型的搜索对象,但这些搜索引擎仍然使用与通用搜索引擎相类似的排序算法。在本论文中,我们将专门为科学研究论文构造一种新的、容易实现的排序算法。Paper time ranking algorithm (PTRA)是一种新的排序算法,它根据三个因素来对结果进行排序:发表年份、引用频次、所属刊物。这三个因素会对PTRA带来不同的影响。我们考虑到这三个因素出自以下三个原因:首先,国际会议或期刊在业界的影响力在一定程度上表明了论文的质量;其次,论文发表年份能决定该文章的主题是否会成为热门主题;第三,论文的引用频次能够说明该文章的含金量、受关注程度以及其对相应研究方向的影响力。鉴于科学研究者们倾向于对最新的科学文献投入更多的关注,我们将在算法中提高发表年分的影响比例。为了构建和证实PTRA算法,我们做了一个网络爬虫,它会遍历世界上不同的科研论文数据库以收集PTRA所需的信息。遗憾的是,起初有些信息缺失或难以收集,比如一些学术期刊的影响力因子。为了收集这些信息,我们构造了另一个网络爬虫,专门用来提取和计算期刊的影响力因子。时至今日,我们的网络爬虫已经可以收集到PTRA所需的全部数据。为了证明我们的排序算法结果的准确性以及各个参数对排序算法的影响,我们将PTRA与谷歌学术搜索的排序算法进行了对比。我们参考谷歌学术搜索有三个原因:首先,谷歌学术上已有超过了五千万篇的论文。第二,谷歌的网络爬虫比较先进,可以以较快的方式在世界范围内收集最新发表的作品。第三,谷歌在搜索引擎和排序算法上拥有非常丰富的经验。经过比较我们可以得知,在谷歌排序算法中,论文的引用频次对排序结果的影响程度度最大。PTRA则不一样,它把论文的发表年份放在最重要的位置。另外我们也了解到,谷歌网络搜索引擎的搜索排序算法并不考虑论文发表年分,而PTRA则是会考虑到论文的引用频次,只是其相对于发表年份的影响力稍小。