论文部分内容阅读
信息的网络化给广大用户带来方便的同时,由于其面向对象的广泛化,网络上存储的信息庞大而纷繁复杂,这样就给使用者获取有用信息带来了很大的困难。Web挖掘就是应对这种情况,是数据挖掘在Web环境下的应用。描述了Web结构挖掘的两种经典的算法:PageRank算法和HITS算法。PageRank算法在计算页面的权威值的过程中只考虑页面之间的链接关系,而忽略了页面本身的重要性。处于不同的站点下的页面的重要性不同的,就同一页面来说,放在教育部的网站下和放在北邮的网站下,人们关注的程度肯定不同。显然教育部的页面更重要些,在运算过程中也就要相应的赋予更高的权威值。同样的对于HITS算法,其在由根集向基集的扩展过程中会引入大量的相关度很小的链接面,这样不但给迭代运算带来了不必要的浪费,而且无关页面也会影响查询主题,从而引起“主题漂移”。本文主要从理论方面研究Web数据挖掘,对PageRank算法和HITS算法做了改进处理;同时对Web挖掘也做了详细的说明。该研究工作在算法的可行性和有效性上得到了验证。本文所做的主要工作如下:1.对经典的Web结构挖掘算法PageRank算法及Hits算法进行分析,并对这两种算法中存在的缺陷进行了系统的阐述。2.对PageRank算法做了改进:在应用PageRank算法计算页面权威值之前,分析各个网站的权威度,把网站的权威度作为评估页面权威值的一个影响因子。3.对HITS算法提出新的算法:在扩展后的基集上保留频繁页面集,忽略阙值小于给定值的页面,从而提高搜索的质量和效率。4.对改进的算法的可行性进行了理论检验,通过真实数据的对比,验证了改进算法的有效性。