基于用户访问矩阵的网页推荐模型研究

来源 :江苏大学 | 被引量 : 12次 | 上传用户:liminice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是将传统数据挖掘与Web结合起来的技术,其中Web使用挖掘的挖掘对象是用户和网络交互过程中抽取的Web日志数据。对这些数据挖掘可以帮助理解用户的行为,从而改进站点的结构,或为来访者提供网页推荐服务。当前基于使用挖掘的推荐模型中,通过关联规则来预测用户浏览模式在网页推荐领域引起了很多关注,但许多关联规则算法本身存在的缺陷,再加上预测的结果和用户实际浏览行为之间的匹配率较低,推荐算法执行结果必然难以让用户满意。因此本文的工作主要围绕以上存在的问题展开,主要分为以下几个方面。首先,Web日志数据预处理。本文将粗糙集理论中属性信息量的概念引入到预处理阶段,给出了属性重要性量化值的概念,提出了一种基于属性重要性的数据预处理方式,该方法有效地剔除了噪音数据,从而为后期处理提供了规模更小的数据集,减小了日志数据挖掘的复杂度。接着,本文对可重复连续频繁访问路径挖掘算法进行了研究。首先介绍了最具代表性的两种频繁访问路径挖掘算法,接着文章对可重复连续频繁访问路径挖掘算法进行了详细地分析,提出了一种CA-Mining算法,并通过实验验证了该算法的有效性和正确性。最后在第五章网页推荐部分,采用CA-Mining算法进行可重复连续频繁访问路径的挖掘。其次,分析了矩阵聚类的方法。文章在宋擒豹等学者提出的矩阵聚类的基础上进行了改进,将页面访问顺序引入到向量相似性计算中来,给出了一种改进的向量相似性计算方法,提高了矩阵聚类的精度。最后,对网页推荐模型进行了探讨。在分析当前网页推荐领域常用方法的基础上,本文将CA-Mining算法与矩阵聚类方法相结合,给出了一种改进的网页推荐模型,由于在实际访问过程中,重复浏览页面是很普遍的现象,所以再挖掘频繁访问模式时,我们采用CA-Mining算法。实验表明,该推荐模型有效提高了推荐的准确率和覆盖率。
其他文献
伴随着强大的存储介质、计算能力以及移动互联网的不断发展,医疗数据的井喷式增长以及快速的电子数字化将成为未来的发展趋势。目前,存储在各种医疗系统中的数据量每天都在快
随着计算机技术和网络技术的快速发展,传统的身份识别方式已经过时,在许多的行业,像银行,保险,网络等对信息的安全性提出了更高的要求,社会亟需安全,便捷,高效的身份识别方式
工业控制领域的飞速发展,及对时间要求较严格的应用的需要,使得传统数据库无法适应某些特定领域的要求,实时数据库系统(RTDBS)应运而生。实时数据库系统不是实时系统与传统数
研究医学图像对促进医学科学的发展具有重大意义,图像分割是研究医学图像的核心问题。现今,已有学者将支持向量机应用于图像分割处理中,并能够取得较好的分割效果。但由于没有考
随着虚拟现实技术不断发展,三维地形可视化的构建在各个领域都有着广泛应用。三维地形的构建由过去的小规模构建,演变成了大规模动态地形的构建。对三维地形的模拟不再拘泥于
近年来,随着软件与硬件的飞速发展以及个人电脑和互联网的普及,基于熟人关系的网络如微信、基于同学关系的网络如人人网和基于关注关系的网络如微博等各类在线社交平台深受人
随着信息化的普及,计算机已走进了千家万户,为人们的生活带来了极大的便利。然而,在使用计算机的过程中,也会由于各种原因导致重要文件被删除或遭到破坏,造成无法挽回的损失
随着网络技术的发展和数据库应用领域的不断扩大,政府、企业、个人根据需要在互联网上发布自己的数据,而一些研究部门则研究他们发布的数据。在这些数据中包含了社会中各种各
网络流量是由不同应用类型的流量成分混合而成的,充分理解总体流量的构成以及各种成分的变化规律对网络管理和网络行为学研究具有重要意义。源宿IP、源宿端口与协议在五个维
随着互联网的发展和全球经济一体化,电子商务的建设变得非常重要。近年来,网络的迅猛发展给人们生活各个方面带来很大的便利,也使得企业向着信息化的方向发展。同时,企业的需求也