复杂网络中节点重要性在垃圾网页检测中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:gongminsir2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代社会人们通常使用网络来获取信息。但许多无良的商业网站利用网络制造垃圾网页来获取利润。这种行为已经严重干扰了网络的正常秩序。因此,检测垃圾网页工作已经成为亟需解决的重要课题。由于TrustRank算法认为高质量的网站一般不会指向垃圾网站,但现实中这种行为是存在的,因此论文对TrustRank算法进行改进,使用复杂网络中节点重要性的排序方法,提出了基于介数指标和集聚系数的垃圾网页检测算法BCTRank。BCTRank包括2个子算法——基于介数指标的种子集选取算法BCW和基于集聚系数的排序算法CTRank。论文主要工作如下。(1)在现实中,垃圾网页的制造者会在高质量的网页里添加外链,提升自己在网络中的排名。针对这种情况,论文提出了一种新的选取种子集的方法,即BCW算法。首先采用PCA来处理数据,在此基础上使用了介数指标对每个网页进行评分并且对不同的网页定义不同的权重,以此通过每个网页出链的评分与该网页的评分的加权求和来计算每个网页的重要性得分。然后,采用的种子集赋值方式是挑选出得分较高和较低的页面分别赋予不同的初值,使其共同组成种子集。(2)TrustRank排序算法认为网页的跳转概率都是相同的,但通常网页与网页间不应是“平等”的关系,针对此问题论文提出了CTRank算法。把集聚系数中的邻居数改为使用入链数来代替计算。根据改变后的集聚系数的得分和每个节点的出链情况,提出使用不同方法来差异化地计算转移矩阵。以此来改善TrustRank算法在计算转移矩阵时平均分配链接权重、而忽略网页重要性的问题。论文使用WEBSPAM-UK2007对算法的有效性进行评估。使用准确率、召回率以及F值等评价指标对网页的最终排序结果进行分析比较。实验最终结果证明了所提算法的有效性。
其他文献
随着工业化进程的加快,机械的运用已经很普遍,机械的结构也更加复杂。而机械作为企业生产中的关键设备,一旦发生故障,将会给企业带来经济损失、甚至更加严重的后果。由于机械
污水处理厂迁建工程项目有利于提升污水处理能力,降低污水排放对环境的影响,但由于建设工程项目涉及范围广,项目过程中可能会出现如土地征用、房屋拆迁、施工管理等问题,为了避免类似问题的产生,对项目进行社会稳定性风险评价是十分有必要的,这有利于从源头上缓解矛盾,保持社会和谐稳定。首先,利用利益相关者理论分析项目的各利益相关方并进行访谈调研,对居民进行问卷调研,梳理出二级风险因素,然后通过检查表法对30个风
随着中国国民经济的飞速发展,为了保证经济得到可持续发展,开展了大量的基础交通建设工程。中国是一个多山的国家,隧道作为一种特殊的地下建筑结构受到了越来越多的关注。在
近年来,随着我国高速铁路的快速发展,铁路线路里程的不断增加,一些地区的风沙灾害严重威胁了铁路线路的运营安全。铁路轨道除沙车作为清除风沙地区轨道积沙的铁路养护设备,它
众所周知,实现货币国际化是提升综合国力和谋求长远发展的重要战略。但纵观历史,一国货币在实现国际化的进程中会受到诸多因素的影响。当前汇率弹性日益增大,各国都面临着更大的汇率波动。剧烈波动的汇率会通过影响国际市场参与者的交易预期和行为而对一国货币国际化的发展产生冲击。考虑到一国的金融市场发展和资本账户开放为货币国际化创造了条件,因此一国的汇率波动对货币国际化的影响程度和方向可能会受到金融市场发展和资本
目前,全球导航卫星系统GNSS(Global Navigation Satellite System)主要包括美国的GPS导航系统、俄罗斯的GLONASS系统、欧盟的GALILEO系统,以及中国的北斗导航系统。GPS导航系统在军事、商业和生活领域占有超过九成的市场份额,为了打破其垄断地位,我国必须研发自己的导航系统。北斗卫星导航定位一般需要经过三个阶段的信号处理模块:信号捕获、信号跟踪锁定以及信号
中间人攻击是一种常见的网络攻击方法,攻击者可以通过使用一些技术手段获取用户的隐私敏感信息,从而给用户造成一定的财产或是人身安全隐患。因此,目前针对中间人攻击防御问
二硫化钨(WS2)是一种具有类石墨烯结构的过渡金属硫族化合物(Transition metal dichalcogenides,TMDs)。将WS2三维尺寸缩小到10 nm以下可得到二硫化钨量子点(WS2quantum dots,WS2
路口环境下的行人检测是智能交通环境感知的重要组成部分。传统路口行人检测依赖于人工设计特征,存在一定的主观性,而且算法和平台硬件性能都无法满足场景检测需求。随着深度学习的发展和计算机硬件性能的改善,卷积神经网络在行人检测领域取得了优异的成绩。同时,由于近几年嵌入式平台边缘计算能力的提升,因此寻求一种高效、快速的面向嵌入式平台的路口行人检测算法具有较高的应用价值。本文主要研究工作及成果如下:(1)以路
时代呼唤理论创新,任何一种科学理论都是基于一定的历史与现实背景下对时代之问的深刻回答。党的十九大报告明确指出:中国特色社会主义进入新时代。这一重大政治判断科学标定了我国发展新的历史方位与时代坐标,从根本上改变了全球大势。中国社会主要矛盾已转化为“人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾”。在新时代发展潮流中,民众对幸福内涵逐渐有了新认识,对与生命健康密切相关的生态环境问题愈加关切。