论文部分内容阅读
进入21世纪,互联网和移动终端成为发展最为迅速的科技产品技术,随着规模的扩大、产品的普及和中间平台的推广,互联网和智能终端逐渐成为改变世界的力量,从根本上影响着人们生活、工作、休闲、沟通的方式。与此同时,WWW己经成为一个巨大的,分布广泛的全球信息资源宝库。而它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也为Web数据的挖掘造成了相当的难度。为此,如何帮助用户从因特网浩如烟海的信息中发现他们感兴趣的资源,已经成为一项急需解决的任务。超链接包含了大量人类潜在的语义,它有助于自动分析出权威性语义。同时,大量的Web链接信息提供了丰富的关于Web内容相关性、质量与结构方面的信息,这对Web挖掘提供一个重要资源。HITS(Hyperlink-InducedTopicSearch)算法正是一种利用链接关系识别权威Web页面的算法。本文对一种应用较为广泛的Web结构挖掘算法——HITS算法及其经典的改进算法进行了深入细致的研究。HITS算法本身只考虑Web页面之间的链接结构而完全忽略了Web页面的内容信息,并且对链接的重要程度不加区分,从而出现了主题漂移等问题。针对这些问题本文基于VSM模型、信任度算法以及社会网络的三元闭包原理在原始的HITS算法上提出了三种改进的HITS算法,它们分别是PCHITS算法、PAHITS算法、PCTHITS算法。本文首先基于VSM模型、信任度算法以及三元闭包原理提出了网页主题相似度、网页共同引用度、超链接元信息相似度三个新概念,然后结合这三个概念计算任意两个页面之间的相关性,利用这个相关性构建新的邻接矩阵迭代计算Hubs和Authorities。本文提出了新的方法来构造邻接矩阵,用网页主题相似度、网页共同引用度、超链接元信息相似度来加权链接,从更客观的角度衡量了链接的重要性,为有效地发现权威网页并把权威网页排在返回结果列表的考前位置提供了保证。因此,本文具有一定的理论和实践意义。