基于影响力流识别引文网络中的主路径研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:wangtian575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从Garfield和Price指出引文网络在科学研究的重要性后,分析引文网络中的里程碑事件和演化过程成为了学者们重点研究的对象,随着时间的推移和知识量的增长,引文网络被广泛应用于引文网络知识流与知识共享的研究、挖掘技术路径、揭示科学结构的演变、科研评价指标的优化等领域,引文网络己经演化形成了一个庞大的网络系统。因此如何从庞大的引文网络中找出关键的文献是分析特定领域变化趋势的重要问题。按照现有的评价指标,如果从单一的属性如时间的优先性又或是被引频次的高低进行核心节点的筛选,都会忽略引文之间的联系,很难展现出知识的演化过程。因此,在判断节点是否能为关键节点时应考察它在整个引文网络中的“整体连通性”。为了解决这一问题,Hummon和Doreian从图的连通性角度出发,提出了引文网络主路径分析法,他们定义主路径为整个引文网络中最具连通性且最能反映出特定学科内发展和变化的路径,有效地避免了只考虑入度大小选择出的高被引节点而忽略了“关键文献”存在的可能连通性不强的问题,从而更好地刻画了特定领域内的路径演化发展过程。本文提出了引文网络中影响力流的指标以及在对应的算法中的测量方法,提出被引节点从施引节点通过边链接接收的影响力应视为边链接影响力的传递过程,方向由施引节点到被引节点,并从影响力流的角度提供了一种新的连通性角度进行主路径分析。本文首先选择传统的边遍历计数算法SPLC算法进行边赋权重计算,对收集到的海水淡化领域专利数据和信息安全领域内的科学文献数据构成的引文网络的每采用全局搜索的方式得到对应领域内的技术和科学主路径,并将此作为第四章中基于均等分配的边链接影响力流搜索出的主路径的对照实验。虽然主路径分析中遍历计数赋值算法被广泛应用于引文网络的主路径分析研究中,但是通过主路径分析结果得到遍历计数的边赋值算法得到的结果仍具有一些问题,如基于SPLC算法的得到的两个领域内的主路径由于单一性可能忽略其它重要节点,以及在科学主路径上存在综述类文献而此类文献却不能很好描述演化过程等不足。为解决上述存在的问题,本文试从影响力流的角度出发提出新的主路径分析中的边赋权重的方法,主要拟解决的问题主要包括以下四个:1)如何测量引文网络中的影响力流;2)如何从均等和非均等的角度去分配节点的影响力的大小;3)如何基于影响力流计算引文网络中每条边的权重值;4)基于影响力流思想提取出的主路径与传统的边遍历计数的提取出的主路径的差异性有哪些。首先本文根据特征向量中心性的核心思想总结了引文网络中边链接影响力流传递的概念,在引文网络中每个施引节点会传递一部分的影响力到被引节点上,被影响力大的节点引用的节点也具有较高的影响力,本文接着从边链接影响力传递的思想分别提出了均等分配影响力的边赋值算法和基于耦合分配影响力的边赋值不均等分配算法。从基于均等分配的边链接影响力流的算法思想出发,本文分别定义了基于PageRank算法和单次遍历思想赋值边的算法,并将这两个算法应用于与SPLC算法应用的相同的数据集中。本文提出的基于PageRank的边赋权算法首先随机对引文网络中的节点赋初始值并引入阻尼系数迭代计算节点的影响力值,再根据每个节点的影响力值计算出每条边的影响力流的大小。在PageRank算法的基础上进行了改进提出了单次遍历的边权重算法,首先将每个节点的初影响力值都视为1,表示每个节点在不被引用的情况下文献创造的科学价值都相等,再根据每个节点的影响力值计算出引文网络中每条边的影响力流的大小。在均等分配的边链接影响力流的主路径分析中也采用全局搜索的方式提取出整个引文网络中具有边权重值最大的路径。本文将两个算法得到的主路径分别从路径形态,节点内容,节点的被引频次以及主题演化等方面横向和纵向对比了SPLC算法和基于均等分配的边链接影响力流主路径搜索的算法的异同点,比较结果发现基于PageRank算法和单次遍历思想赋值边的算法得到的两个领域内的主路径完全相同,但是计算方式不同,单次遍历赋权的算法的计算速度和效率会优于基于PageRank的边赋权算法,从适用性角度出发,由于PageRank算法最早提出是为了解决web网络中的排序问题,所以本文中基于PageRank的边赋值算法需要加入阻尼系数才能避免收敛失败而单词遍历的边赋值算法能够直接作用于有向无循环网络进行边计算。比较均等分配边链接影响力的边赋值算法得到的主路径与基于SPLC算法得到的主路径可发现:1)传统的SPX算法以边遍历算法提取出的主路径虽然能提取出关键节点的主路径,但是单一的主路径仍会忽略掉没有被搜索出的重要节点,本章节的算法以均等分配边链接影响力的角度传递出发,为分析主路径的演化过程提供了新的思路,在搜索出的主路径中,也存在一定数量节点的被引数高于基于SPX得出的主路径上节点的被引数,因此能在一定程度上弥补边遍历权重算法忽略的关键节点;2)基于均等边链接传递影响力流思想搜索出的主路径的节点能够追溯到更早的节点,主路径的演化时间跨度更长,能够帮助科研人员分析特定领域内早期的关键技术或科研成果;3)基于均等边链接传递影响力流搜索出的科学引文路径可以避免综述类文献出现在主路径上,相比SPLC算法得出的主路径节点的内容更具有客观性,揭示出技术或科学主题的演化过程更精细;4)基于均等边链接传递影响力流搜索出路径可以提供另一种揭示技术或主题的角度补充说明了基于传统边遍历算法得到的主路径。由于不同文献在知识扩散过程中所发挥的作用是不同的,因此根据施引节点和被引节点之间的紧密度不同,实际通过边链接传递影响力的过程中根据节点之间的紧密度传递的影响力也不相同,即耦合强度越大的节点对之间紧密性越强,与施引节点有高耦合强度的被引节点相比其它耦合强度小的被引节点接收到的影响力越多。基于此思想,本文提出了基于耦合强度的边赋权算法,首先将引文网络中的每个节点的初始权重值赋为1,根据耦合强度按比例分配施引节点的影响力到被引节点,计算出每个节点的影响力大小和每条边的影响力流大小。本文将此方法应用在Garfield在1979年构建的由40个重要节点构成的DNA网络中并采用局域搜索的方式提取出主路径,与Hummon和Doreain提出的SPLC算法得到的主路径结果进行路径形态和节点内容的对比分析。本算法的提出是为了在一定程度解决由边遍历计数算法赋值造成的主路径节点缺少实质意义的问题,对相关科研人员来说,在由都具有很强影响力节点构成的引文网络中,基于影响力和节点之间的强紧密性来分析重要节点之间的演化关系对发现主题或技术的演化发展也同样重要,因此基于耦合强度的边链接影响力流分析主路径的方法更适用于需要揭示更精细演化结构的引文网络中。最后,本文对主要研究做出了总结并讨论了研究中存在的不足以及对未来研究方向的展望。本文提出的两种均等分配的边链接影响力流搜索出路径的算法都能够成功地在科学引文网络内和专利引文网络识别出主路径并且相比于传统的主路径的边遍历算法有一定的优势。基于耦合强度不均等分配边链接影响力流搜索主路径的方法页为揭示主路径上节点和节点之间紧密性关系提供了一个新思路并得出了与传统的主路径分析方法不一样的主路径,搜索出的主路径既考虑了节点影响力大小也考虑了节点之间的紧密性,为科研人员分析主路径上节点内容提供了更精细的演化结构。在未来的主路径研究中,本文从边赋权的算法和主路径分析的适用性这两方面给出了相应的建议。
其他文献
2010年12月12日,上海这个冬季的周日,却飘着细密如织的雨,然而阴冷潮湿的冬雨,以及近期香港涌现的大量极难辨别的假黄金和周生生等知名珠宝品牌曝出的18K金产品“缺金”事件,并没
笔者的机器是联想品牌机,最近购买了一块P C I 接口的电视卡,安装好后能正常收看有线电视,但在 重启时会不定期死机。于是怀疑电视卡与原有的硬件 产生了冲突,但是在Windows
很多人都知道ADSL账号密码是跟固定电话号码捆绑的,也就是说即使别人知道了你的账号和密码,也不能用另一个电话号码上网。但是,却很少有人知道,如果别人知道了你的账号、密码
第45届台湾电影金马奖12月6日在台湾台中市颁奖。在电影《集结号》中扮演谷子池的大陆赏张涵予获得“最佳男主角”,著名作家刘恒也因该片获得“最佳改编剧本奖”。香港电影在
2015年初,江苏省张家港市旺农水产养殖专业合作社应用淡水渔业研究中心提供的底栖饵料生物增殖专利技术,使用牛粪、羊粪、酒糟等原料按一定配比混合发酵,并加入多种有益生物
他是中国第一代服装设计师.他在上海国际时尚联合会副会长任期中,推动中国八大服装品牌同赴米兰时装周.他将复兴中华时尚产业视为义不容辞的责任.他是中国走在时尚前沿的服装
期刊
上海世博会美国推介会1月2目晚在加州帕萨迪纳市开幕。中国驻美大使周文重、上海世博会代表团团长杨振武、中国驻洛杉矶总领事张云、美国国会众议员赵美心等中美官员和现场20
香港芭蕾舞团成功献演《吉赛尔》庆祖国60华诞    作为庆祝祖国60华诞献礼演出中惟一一台来自香港的剧目,由香港芭蕾舞团带来的浪漫芭蕾经典《吉赛尔》近日成功在北京上演。  香港芭蕾舞团艺术总监区美莲说:“《吉赛尔》是一部重要的并最能显示舞蹈团实力的古典浪漫芭蕾舞剧。它不仅要求舞蹈演员舞艺精湛,更需要高超的演技。这无论对整个舞蹈团还是主要演员来说均是挑战。”  港芭的43位舞蹈演员来自11个不同的国
图像精细分类是计算机视觉领域中最重要研究方向之一。近年来随着深度学习技术的发展,图像精细分类的效果有了显著提升。但是搭建这些分类模型仍需要大量的人力对图像数据进行类别标注。因此如何使用少量样本或更容易获取的数据替代人工标注的数据是研究者们探讨的重点。同时,通过互联网平台可以较为轻松地获取大量的弱标签数据,但是由于弱标签数据的真实标签难以确认而难以得到有效利用。针对此情况,本文从以下几个方面进行探讨