基于三元闭包原理的HITS改进算法

来源 :西华大学 | 被引量 : 0次 | 上传用户:ufo747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,互联网和移动终端成为发展最为迅速的科技产品技术,随着规模的扩大、产品的普及和中间平台的推广,互联网和智能终端逐渐成为改变世界的力量,从根本上影响着人们生活、工作、休闲、沟通的方式。与此同时,WWW己经成为一个巨大的,分布广泛的全球信息资源宝库。而它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也为Web数据的挖掘造成了相当的难度。为此,如何帮助用户从因特网浩如烟海的信息中发现他们感兴趣的资源,已经成为一项急需解决的任务。超链接包含了大量人类潜在的语义,它有助于自动分析出权威性语义。同时,大量的Web链接信息提供了丰富的关于Web内容相关性、质量与结构方面的信息,这对Web挖掘提供一个重要资源。HITS(Hyperlink-InducedTopicSearch)算法正是一种利用链接关系识别权威Web页面的算法。本文对一种应用较为广泛的Web结构挖掘算法——HITS算法及其经典的改进算法进行了深入细致的研究。HITS算法本身只考虑Web页面之间的链接结构而完全忽略了Web页面的内容信息,并且对链接的重要程度不加区分,从而出现了主题漂移等问题。针对这些问题本文基于VSM模型、信任度算法以及社会网络的三元闭包原理在原始的HITS算法上提出了三种改进的HITS算法,它们分别是PCHITS算法、PAHITS算法、PCTHITS算法。本文首先基于VSM模型、信任度算法以及三元闭包原理提出了网页主题相似度、网页共同引用度、超链接元信息相似度三个新概念,然后结合这三个概念计算任意两个页面之间的相关性,利用这个相关性构建新的邻接矩阵迭代计算Hubs和Authorities。本文提出了新的方法来构造邻接矩阵,用网页主题相似度、网页共同引用度、超链接元信息相似度来加权链接,从更客观的角度衡量了链接的重要性,为有效地发现权威网页并把权威网页排在返回结果列表的考前位置提供了保证。因此,本文具有一定的理论和实践意义。
其他文献
直觉模糊集理论及区间直觉模糊集理论为模糊多属性决策领域中重要的理论基础,在模糊决策过程中通常需要对直觉模糊数或区间直觉模糊数进行排序.因此,本文重点研究直觉模糊数
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
设G=(V,E)是一个简单图,其中V和五分别表示G的点集和边集.令A和g(G)分别表示G的最大度和围长.如果能将图G画在平面上,使得它的边仅在其端点处相交,则称G是可平面图.图的这种
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
推广了粗糙隶属函数的概念,以一种自然的方式建立了粗糙集与模糊集之间的联系;研究了满层的L-收敛空间的范畴性质和拓扑性质.主要内容如下:  第一,粗糙隶属函数最初是基于
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
微分求积法是求解微分方程的一种有效方法,它计算量小,精度高,已被广泛用于各个领域问题的求解。但是传统的微分求积法在有其特定的优点的同时,也具有不足之处,比如在求解奇
本文研究的是有限单群的刻画问题,主要研究对象是有限单群Dn(3)(n?5是奇数或者1n?p?,p?3是素数)和S4(q)(3?q?50是素数的方幂)。研究了某些有限单群Dn(3)的素图拟刻画和S4(q)
逼近就是用简单代替复杂,用具体代替抽象。由于函数是建立在理论与实际之间的桥梁,是用数学方法研究实际问题的基础,因此,函数逼近问题的研究无论是在数学理论还是在工程实践
当代信息系统(Information Systems,IS)在企业中的应用越来越多,这个新一代的信息系统通常被称为流程感知信息系统(Process Aware information system,PAIS)。在PAIS中业务流