大规模互联网数据的统计分析与用户行为研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:guoyuan22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,国内的网络用户数量达到了空前的高度。网络用户通过固网或运营商的移动网络接入因特网,产生了各类型的用户网络行为流量记录。如何从互联网用户的行为中,高效挖掘出有价值的信息,也成为了一个热门的话题。本论文从国内某大型运营商网络用户数据入手,辅以国内某广告交易平台用户网络数据,从宏观的统计、用户群体行为、用户兴趣项集、大量用户网络流量等角度切入,对大规模的互联网数据进行统计分析,也对用户在兴趣和流量方面的特征进行研究。本论文完整的介绍了进行数据处理与挖掘的流程:首先,通过Web爬虫技术,在Scrapy框架下用Python实现爬虫,爬取URL和兴趣分类标签的映射关系,并以整理归类后上传HDFS;然后,在Linux环境下搭建Hadoop分布式数据处理平台,并完善相应的分布式数据储存和算法分析模块,包括Hive,HBase,Mahout等;随后,基于MapReduce框架实现高效的数据分块和数据预处理,并以Web爬虫所得的URL兴趣分类标签结果作为用户的兴趣画像标准进行匹配;随后以分布和规约的思想分别实现二次排序、Canopy预分簇的改进K-Means算法、改进的FpGrowth频繁项集发现算法、流量自相似性算法等,并创新的将这些算法运用于大规模的运营商DPI数据之中;最后,整理各个研究点的数据输出结果,分门别类的以图表的形式进行展示并结合实际网络情况进行相关分析。在数据分析方面,本论文首先将宏观的展示两个数据平台下数据的基本统计规模;然后,以数据咨询报表的形式,详细的从数据角度剖析国内的大型电商平台;随后的分析将基于聚类、频繁项、流量自相似三个方面,对前面所得的用户兴趣画像进行研究和展示。统计咨询类的数据结果将有助于观测互联网大数据的整体环境,而网络用户的个人的属性倾向的挖掘、用户群体属性的共同特征的分析以及网络用户流量自相似性的证明,其结果在广告的定向推荐、网络用户浏览体验的改进等方面都提供了很好的数据支持。
其他文献
随着经济全球化的发展和时代的变迁,"大数据"概念已被人熟知,在如今的社会生活中有重大影响,尤其是在繁杂的政府信息中起着不可小觑的作用。本文从大数据时代的角度出发,以政府
<正> 北欧斯堪的纳维亚半岛的瑞典、挪威和毗邻的以日耳曼族斯堪的纳维亚人为主的丹麦、冰岛,在地理、历史、文化上都有着不可分割的联系。19到世纪中叶,他们在文化思想、文
我国科技的不断发展,推动了信息技术的发展,使得人们已经逐渐进入大数据时代,提高了工作效率,改变了原有的工作方式。在家电企业发展过程中,财务管理工作是企业管理的主要构
<正>核心素养,指的是人适应未来社会生存和发展所需要的必备品格、关键能力。指向未来人才培养的核心素养研究一直是多个学科、多种领域合作研究的集成,被美国、法国、德国、
随着经济的发展和进步,社保法也在不断更新,推行了新的社保法,它的颁布和实施对企业的用功产生了巨大影响。这篇文章以新社保环境为基础,探讨了在这一环境下对人力资源管理的
<正>循证护理是以有价值的、可信的科学研究结果为证据,提出问题、寻找实证,并将可利用的最适宜的护理研究依据,护理人员的个人技能和临床经验,以及患者的实际情况、价值观和
以银耳及莲子提取物为主要原料,设计正交试验对银耳莲子果冻的加工工艺进行了研究。通过对果冻的色泽、外观、风味、口感进行评价确定产品配方。结果表明,40%银耳及莲子提取
随着科学技术的进步和互联网信息化的发展,电子商务模式作为网络化的新型经济活动,成为新经济的重要组成部分,方便、快捷的移动支付为越来越多的人所接受,与此同时,电子商务
学生对体育课缺乏兴趣,教师必须反思自己课堂教学的利弊。要使体育教学有实效,最要紧的是要转变学生的观念,使学生乐学。因此,怎样上好体育课,如何吸引学生的眼球,是一个值得研究的
随着现代社会的不断发展,科技的不断进步,电子产品逐渐向着线性化、高度集成的趋势迈进。推动着整个行业的发展和技术的不断创新。而电子产品的封装技术也向着微电子封装时代