一种论文时间与引用兼顾的科研论文排序算法

来源 :山东大学 | 被引量 : 0次 | 上传用户:xiao_zhuang_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网包含数量巨大的文件信息,从而搜索引擎所返回的搜索结果可能包含上千或者上百万条的记录。这样就必然需要一种排序算对搜索结果进行排序,使得人们能够在第一时间看到最符合要求的结果。一般的搜索引擎只会采用一种排序算法来对所有情况的搜索结果进行排序,导致所有的返回结果将以同样的规则排列。这样的排序方式可能不利于一些特殊类型的文章,比如一些科学研究论文。虽然人们创造了一些专门的搜索引擎用来搜索、索引和排序那些特殊类型的搜索对象,但这些搜索引擎仍然使用与通用搜索引擎相类似的排序算法。在本论文中,我们将专门为科学研究论文构造一种新的、容易实现的排序算法。Paper time ranking algorithm (PTRA)是一种新的排序算法,它根据三个因素来对结果进行排序:发表年份、引用频次、所属刊物。这三个因素会对PTRA带来不同的影响。我们考虑到这三个因素出自以下三个原因:首先,国际会议或期刊在业界的影响力在一定程度上表明了论文的质量;其次,论文发表年份能决定该文章的主题是否会成为热门主题;第三,论文的引用频次能够说明该文章的含金量、受关注程度以及其对相应研究方向的影响力。鉴于科学研究者们倾向于对最新的科学文献投入更多的关注,我们将在算法中提高发表年分的影响比例。为了构建和证实PTRA算法,我们做了一个网络爬虫,它会遍历世界上不同的科研论文数据库以收集PTRA所需的信息。遗憾的是,起初有些信息缺失或难以收集,比如一些学术期刊的影响力因子。为了收集这些信息,我们构造了另一个网络爬虫,专门用来提取和计算期刊的影响力因子。时至今日,我们的网络爬虫已经可以收集到PTRA所需的全部数据。为了证明我们的排序算法结果的准确性以及各个参数对排序算法的影响,我们将PTRA与谷歌学术搜索的排序算法进行了对比。我们参考谷歌学术搜索有三个原因:首先,谷歌学术上已有超过了五千万篇的论文。第二,谷歌的网络爬虫比较先进,可以以较快的方式在世界范围内收集最新发表的作品。第三,谷歌在搜索引擎和排序算法上拥有非常丰富的经验。经过比较我们可以得知,在谷歌排序算法中,论文的引用频次对排序结果的影响程度度最大。PTRA则不一样,它把论文的发表年份放在最重要的位置。另外我们也了解到,谷歌网络搜索引擎的搜索排序算法并不考虑论文发表年分,而PTRA则是会考虑到论文的引用频次,只是其相对于发表年份的影响力稍小。
其他文献
随着地理信息系统、移动计算、医学、计算机辅助设计和卫星图像数据处理等领域的发展,空间数据的查询研究引起了人们的高度重视,对时空数据库中大量移动对象进行有效查询的算
在信息技术飞速发展、信息资源指数级增加的今天,如何从海量的不一致不完备数据中挖掘出有用的信息,并提高获取的速度和效率,是知识发现研究的一个重要课题。粗糙集理论是一
随着计算机技术、网络技术、信息技术、分布式技术和数据库技术的蓬勃发展,万维网地理信息系统成为GIS发展的重要方向之一,愈来愈受到世界各领域的关注和应用。如电信资源管
Web服务是一种独立于平台和实现的软件构件,可以在网络中被描述、发布、查找,通过调用的形式能够实现异构平台之间的互连和集成。Agent理论技术在面向服务计算领域的应用为研
深空探测是我国航天事业的重要领域之一,它的顺利进行也是我国综合国力的体现。在此之前进行必要的数学仿真实验可以大大降低实验研究的成本。本论文基于上述背景,研发了一套
互联网的快速发展给人们的生活和工作带来了巨大的便利,但是Web上的海量信息也产生了“信息泛滥”的问题。如何构建行之有效的个性化推荐系统,快速高效地分析出用户的个性化行
互联网络的连接方式决定了网络的通信能力和效率。优秀的网络结构应该具有良好的对称性、可扩展性、递归性、通用性及通信直径小等特点,此外,当网络出现故障时,还应该具有良
认知无线电是一种智能频谱共享技术,它通过检测周围频域、时域和空域等无线电磁环境,自动搜寻并伺机动态接入授权频谱暂时空闲的频段进行通信,并避免对授权用户造成干扰,从而
随着信息时代的到来,互联网技术突飞猛进,基于Int ernet技术的网络教育逐步成为一种利用社会优势教育资源的有效途径。E-learning系统涉及多学科的研究领域,为教育带来了一次