论文部分内容阅读
随着WWW的迅速发展,Internet上的服务器积累了大量的Web日志数据,基于Web日志的使用挖掘是目前的研究热点之一。Web使用挖掘一个多学科交叉的研究领域,涉及到数据库技术、人工智能、神经网络、模式识别、统计学、模糊集、粗糙集等许多学科的理论。通过对Web日志进行挖掘,可以发现隐藏其中的知识和规律—用户的访问行为和访问兴趣,这些知识可以应用于个性化服务、Web站点系统改进以及商业智能等。本文针对用户浏览模式的特点,就用户浏览模式挖掘方法和用户浏览模式挖掘应用2个方面进行了分析与研究,主要工作包括以下几个方面:1.首先从用户浏览模式挖掘的4个方面:数据预处理、兴趣浏览模式发现、浏览模式聚类以及用户浏览模式应用研究,综述了国内外学者的经典的方法和最新的进展,并对相关研究成果进行详细地整理、归纳与分析。2.在分析用户访问行为的基础上,充分考虑用户在路径选择上以及在页面上浏览表现出来的兴趣,提出了用户路径选择兴趣度以及页面浏览兴趣度的概念,设计了路径选择兴趣矩阵以及页面浏览兴趣矩阵,并基于两个矩阵设计了浏览兴趣路径挖掘算法,先通过对这两个矩阵进行综合浏览兴趣度计算得到所有的浏览兴趣子路径,最后进行子路径合并得到浏览兴趣路径。3.考虑到不同的网页可能对用户来说具有不同的兴趣度,提出使用模糊综合评判方法来对网页的兴趣度进行评判,此外,用户在网页上的浏览时间对于分析用户的浏览兴趣是一个很重要的因素,为了忽略用户浏览时间上的细小区别,用户在网页上的浏览时间被刻画成模糊语言变量来描述用户的浏览兴趣,实现了基于模糊集的用户浏览模式挖掘算法,挖掘出来的浏览模式更符合人的推理方式。4.提出了基于LCS的归纳化的用户浏览模式的聚类方法,在聚类过程中,该方法中使用LCS算法来获取会话之间的最长公共浏览序列,然后根据该公共浏览序列结合浏览兴趣、路径选择兴趣度来计算会话的相似性,同时为了减少会话的维数,提高算法的效率,按照网站的层次结构采用归纳化的方法对用户会话进行了归纳。5.设计一种基于模糊粗糙集聚类用户浏览模式的方法,在该方法中,每个用户浏览模式被表示成等长的模糊向量的形式,以表示该用户访问过的网页以及浏览时间。在该模糊向量中,每个网页的都用其模糊区域的标势量的最大值来描述该网页的特征,同时给出了模糊粗糙集环境下的浏览模式的相异性度量,最后通过粗糙近似方法对用户浏览模式进行聚类。6.在用户浏览模式的基础上提出了构建频繁浏览兴趣主干子网的算法,可以提取出Web网站被频繁访问的主干部分,为生成3G手机应用的WAP子网以及网站经营者的商务应用提供参考。7.为了根据用户的访问兴趣以提供推荐,本文实现了一种的利用聚类分析结果和加权关联规则相结合进行个性化推荐的方法。在该方法中,根据用户的兴趣扩展了传统的关联关联规则挖掘方法,考虑了用户在网页上的浏览时间、浏览频度以及网页链入度等因素,针对每个聚类进行加权关联规则挖掘,计算用户会话属于哪个(些)聚类,再应用相对应的关联规则进行网页推荐服务。最后,对所做的工作进行了归纳与总结,提出了将来的研究方向和内容。