论文部分内容阅读
随著社会信息化趋势的不断加深,以及互联网内容和应用的不断完善,互联网用户数量也正在迅速增长。目前,作为掌握大量流量数据的网络运营商,有必要深入挖掘流量价值,分析用户行为,促进业务发展,提升用户体验。Web2.0时代的到来,使得万维网逐步发展成为一个全球性的用户参与、共享和互动的平台,而不是原来的海量信息资源库。这对现有的互联网知识发现研究带来了新的挑战。首先,使分布在万维网上各类复杂数据类型,如音频、图像、视频等快速增加;其次,互联网用户个性化的操作需求也在不断增长。因此,怎么样有效支持互联网用户行为分析,并将分析结果加以有效应用,成为当前基于互联网的知识发现技术所面临的挑战。 在一个层面上,网络上数据中的各种复杂的类型,如在图像的急剧增加的分布,音频,视频等;另一层面,个人用户中的操作方面的需要互联网也越来越大。因此,基于因特网的当前知识发现面临的技术两大挑战演变成如何有效地支持互联网用户行为分析,和分析的结果,以有效地应用。 在本文中,我们对互联网用户行为分析技术,在以下方面进行了研究和探索: 1.提出了一种在多Web站点、多标签浏览的网络访问环境中用户浏览行为采集和预处理的方法,首先利用网络嗅探器来采集用户浏览行为数据,然后将采集到的数据进行过滤清理。数据过滤方法是采取从捕获过滤、传统过滤到基于引用和时间关系过滤的三次逐级过滤清理方式。从而为用户行为模型为基础的数据挖掘提供了较为准确的数据源。 2.分类算法的适用性和具体每个数据库的特征很大程度上被属性选择方法所取决,所有的数据库和各种挖掘方法不可能被一种属性选择方法所适用。属性选择首先要考虑属性选择维数的降低程度,其次要考虑算法的运行时间,同时还要考虑选择后的属性集对分类算法的精度影响。论文充分考虑上诉因素,采用了过滤法和打包法相结合的方法进行属性选择,并应用于上网行为数据预处理。 3.在基于用户行为数据采集的基础上,有效地发掘用户间兴趣的相似度是互联网用户行为分析系统的主要内容。推荐系统是一种根据用户访问行为分析,自动发现用户兴趣点的一种信息过滤方式。本文提出了一种以项目分类为基础的协同过滤推荐改进的算法。该算法首先利用项目信息为项目预测评,通过计算类内用户相似度得到邻居,最后进行推荐。该算法可以准确地获取用户兴趣最近邻,有效地解决数据稀疏性问题;同时,该算法还极大地提高了系统的工作效率及可扩展性。 4.基于以上研究成果,设计开发了一个互联网用户行为分析原型系统UBAS,利用部分运营商作为应用对象,验证了关键技术可行性,完成了用户行为分析。 本文以改进的数据采集和过滤技术为基础进行了基础数据的采集,在此基础上,结合基于项目分类的协同过滤改进算法,进行了互联网用户行为分析。这样的算法可以准确地获取用户兴趣最近邻,有效地解决数据稀疏性问题。下一步将把社交网络中的推荐系统以及在用户行为分析的基础上增加反馈机制作为未来研究方向。在电信运营商领域,基于本文的研究结果取得了良好的应用效果,尤其是针对用户行为分析的再精确营销。这从侧面证明了本文成果具有广阔的商用前景,同时具备积极的产业链推广价值。