论文部分内容阅读
电子邮件是现代社会人们重要的通信方式,具有便捷、可靠、快速特点。电子邮件的发送来自邮箱用户的主动行为,可以映射到具体的人与人之间的关系。邮件的主题和内容包含了丰富的用户信息,通过对电子邮件数据进行分析挖掘,使用邮件的收发关系建立邮件通信关系网络,使用邮件主题、正文等进行文本挖掘。综合利用邮件通信关系和内容,以有效发现网络重要成员和可疑邮件。随着邮箱数量和邮件数量持续增加,在海量且复杂的电子邮件网络中基于传统串行算法实现且需要人工参与分析手段效率极为低下。由此对海量邮件数据挖掘平台的需求十分迫切。论文基于邮件通信关系和邮件内容的邮件挖掘技术,研究海量数据下邮件挖掘的并行算法,实现基于通信关系和内容的邮件挖掘系统。本文完成的主要工作包括:(1)在充分考虑业务需求的基础上,以通用性、扩展性和高效性为原则,设计了基于通信关系及内容的邮件挖掘系统架构,设计了系统功能模块,用户接口;(2)基于开源Hadoop,改进优化HDFS分布式文件系统和Map/Reduce并行计算环境,构建云计算基础环境;(3)设计了基于Map/Reudce的并行数据挖掘处理服务集,提供并行文本向量建立、联通图产生、内容相似度计算、内容聚类等挖掘处理服务;(4)实现了基于JavaEE的业务逻辑和用户接口,构建基于通联关系分析和通讯内容挖掘的邮件发现应用。本系统以云计算为基础,以并行数据挖掘服务为核心,构建邮件发现模型,为分析人员提供高效可用的数据挖掘服务和辅助分析手段。可以方便快捷的通过灵活扩充计算和存储资源,适应不断增长的邮件数量带来的处理需求。通过挖掘邮件内容和邮件通连关系提供多角度的视角和手段,提高分析效率和邮件数据的利用率。本系统自部署以来,运行稳定可靠,达到了预期设计目标。