论文部分内容阅读
本文从Web使用挖掘的序列分析和聚类分析中对Web日志进行分析研究,发现人们感兴趣的浏览模式。从Web日志中提取出的有用知识可被用于网站设计、分析系统性能以及网络通讯、理解用户的行为和动机,以及建立个性化的网站等。本文针对用户浏览模式的特点,就用户浏览模式的挖掘和聚类进行了深入的分析和研究,主要工作如下: 提出了基于Frequent Link and Access Tree(FLaAT)的用户浏览模式的挖掘算法,FLaAT存储了所有用户的浏览信息,在搜索用户偏爱模糊路径时考虑到了不同前缀的相同子路径的合并问题,使得挖掘信息更完整。 给出了模糊环境下使用语言最小支持度和偏爱度挖掘用户模糊偏爱浏览路径算法,网页上的浏览时间被刻画成模糊语言变量,这样所挖掘出的带模糊时间值的偏爱路径更能反映用户的兴趣和偏爱程度。此外,语言的输入输出控制更自然、更符合人的推理方式。 定义了模糊偏爱度概念,它和表示用户访问频度的支持度一起反映用户的兴趣和偏爱程度。同时给出了基于模糊偏爱度的用户浏览模式的有效挖掘算法。模糊偏爱度综合考虑了网页的权重、网页的相对访问频度和网页上的浏览时间,因而它更能体现用户的兴趣和偏爱。 设计了一种模糊的粗糙近似法用于对Web日志中的用户浏览模式进行聚类。在聚类过程中,每个用户浏览模式被表示成等长的模糊向量的形式,以表示该用户访问过的网页及网页上的模糊浏览时间,最后使用粗糙近似的方法对表示用户浏览行为的模糊向量进行聚类。 提出了模糊环境下基于粗糙k-均值的聚类方法。每个用户浏览模式都被转换成具有相等长度的模糊向量,然后对代表用户浏览特征的模糊向量使用粗糙k-均值进行聚类。 通过实例分析和相应实验测试,验证了本文所提出算法的有效性与合理性。