基于MapReduce计算模型的大规模电信数据社团发现与模式挖掘

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wanghuayu1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,我们生活的世界被越来越多的数据所覆盖。如何在这大海一般的数据丛林中发现有用的知识,成为了一门单独的学科,数据挖掘。随着社会生活中各个领域的数据规模扩大的速度不断增长,单个计算机的计算能力开始显得捉襟见肘。为了应付这种情况,许多基于并行和分布式计算的数据挖掘方法和工具被提了出来。MapReduce计算模型就是这样一种分布式计算模型。电信技术的发展,尤其是移动通信技术的出现,使得电信数据的规模成爆炸性增长。而这些数据中蕴藏的知识为电信企业提供了巨大的盈利空间。于是,对这些数据的分析成了一个异常急迫的需求。而且,由于电信数据的超大规模,对其进行分布式的存储与计算也体现出了必要性。首先,本文提出了一个基于Hadoop软件平台对原始电信数据进行可控的数据清洗的方法。基于这种方法开发的软件,可以在不改变软件自身的前提下,对各种不同格式的文本数据进行格式的重构。并同时进行脏数据的去除等工作。在此基础上,本文提出了一种借助Hadoop集群强大的计算能力,对由电信数据组成的超大规模通话网络进行社团划分的有效方法。最后,本文将描述一种处理电信数据的流程。首先,电信数据将被按照一定规则进行清洗,清洗后的格式统一的数据将用节点对的方式描述一个超大规模的人际关系网。然后,对这张关系网进行社团划分,结果存储在分布式数据库HBase中。然后,一个用于前端图形展示的模块将负责对社团关系,社团内节点关系进行展示。同时,另一个同样基于Hadoop的模块将负责对每个社团进行分析。对它们的特征进行统计,从而过滤出有用的模式和特征。
其他文献
步入信息社会,我们的移动通信技术正飞速的发展,手机终端业务不但给移动运营商带来巨额的经济利益,而且还在原来单一的移动语音和短消息业务的基础上,开发并逐步推广视频和彩
进入新世纪以来,交通问题成为困扰很多国家的重要问题,交通拥堵、环境污染、交通事故等交通问题给社会的发展,人们的日常生活带来的严重的影响。智能交通运输系统(Intelligen
随着互联网技术的不断发展和应用以及网络用户量的增加,网络管理者和网络运营商迫切地需要一个更加全面、完善的认证管理系统,来解决日益严峻的管理问题。AAA是网络安全的一
随着微机电系统(Micro Electronic Mechanical System, MEMS)的发展,MEMS器件结构日益复杂,通常需要多次设计精化才能达到性能最优。精化设计过程中,对MEMS器件的工艺掩模或
随着现代社会对软件的依赖越来越强,高可信软件测试有着广泛的需求。基于缺陷模式的软件测试技术作为高可信软件的重要保证,可以大大降低软件的缺陷密度,提高软件的可信性。
传感器网络是由一组传感器节点以自组织方式构成的无线网络,随着其研究的深入,目前在各个领域得到了广泛的应用。为了满足用户查询的要求,研究者提出了多种查询方式,目前,kNN