论文部分内容阅读
随着互联网技术的快速发展,国内的网络用户数量达到了空前的高度。网络用户通过固网或运营商的移动网络接入因特网,产生了各类型的用户网络行为流量记录。如何从互联网用户的行为中,高效挖掘出有价值的信息,也成为了一个热门的话题。本论文从国内某大型运营商网络用户数据入手,辅以国内某广告交易平台用户网络数据,从宏观的统计、用户群体行为、用户兴趣项集、大量用户网络流量等角度切入,对大规模的互联网数据进行统计分析,也对用户在兴趣和流量方面的特征进行研究。本论文完整的介绍了进行数据处理与挖掘的流程:首先,通过Web爬虫技术,在Scrapy框架下用Python实现爬虫,爬取URL和兴趣分类标签的映射关系,并以整理归类后上传HDFS;然后,在Linux环境下搭建Hadoop分布式数据处理平台,并完善相应的分布式数据储存和算法分析模块,包括Hive,HBase,Mahout等;随后,基于MapReduce框架实现高效的数据分块和数据预处理,并以Web爬虫所得的URL兴趣分类标签结果作为用户的兴趣画像标准进行匹配;随后以分布和规约的思想分别实现二次排序、Canopy预分簇的改进K-Means算法、改进的FpGrowth频繁项集发现算法、流量自相似性算法等,并创新的将这些算法运用于大规模的运营商DPI数据之中;最后,整理各个研究点的数据输出结果,分门别类的以图表的形式进行展示并结合实际网络情况进行相关分析。在数据分析方面,本论文首先将宏观的展示两个数据平台下数据的基本统计规模;然后,以数据咨询报表的形式,详细的从数据角度剖析国内的大型电商平台;随后的分析将基于聚类、频繁项、流量自相似三个方面,对前面所得的用户兴趣画像进行研究和展示。统计咨询类的数据结果将有助于观测互联网大数据的整体环境,而网络用户的个人的属性倾向的挖掘、用户群体属性的共同特征的分析以及网络用户流量自相似性的证明,其结果在广告的定向推荐、网络用户浏览体验的改进等方面都提供了很好的数据支持。