论文部分内容阅读
随着科学技术的飞速发展,我们生活的世界被越来越多的数据所覆盖。如何在这大海一般的数据丛林中发现有用的知识,成为了一门单独的学科,数据挖掘。随着社会生活中各个领域的数据规模扩大的速度不断增长,单个计算机的计算能力开始显得捉襟见肘。为了应付这种情况,许多基于并行和分布式计算的数据挖掘方法和工具被提了出来。MapReduce计算模型就是这样一种分布式计算模型。电信技术的发展,尤其是移动通信技术的出现,使得电信数据的规模成爆炸性增长。而这些数据中蕴藏的知识为电信企业提供了巨大的盈利空间。于是,对这些数据的分析成了一个异常急迫的需求。而且,由于电信数据的超大规模,对其进行分布式的存储与计算也体现出了必要性。首先,本文提出了一个基于Hadoop软件平台对原始电信数据进行可控的数据清洗的方法。基于这种方法开发的软件,可以在不改变软件自身的前提下,对各种不同格式的文本数据进行格式的重构。并同时进行脏数据的去除等工作。在此基础上,本文提出了一种借助Hadoop集群强大的计算能力,对由电信数据组成的超大规模通话网络进行社团划分的有效方法。最后,本文将描述一种处理电信数据的流程。首先,电信数据将被按照一定规则进行清洗,清洗后的格式统一的数据将用节点对的方式描述一个超大规模的人际关系网。然后,对这张关系网进行社团划分,结果存储在分布式数据库HBase中。然后,一个用于前端图形展示的模块将负责对社团关系,社团内节点关系进行展示。同时,另一个同样基于Hadoop的模块将负责对每个社团进行分析。对它们的特征进行统计,从而过滤出有用的模式和特征。