基于通信关系及内容的邮件挖掘系统

来源 :中国科学院大学(工程管理与信息技术学院) | 被引量 : 1次 | 上传用户:hongdou0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件是现代社会人们重要的通信方式,具有便捷、可靠、快速特点。电子邮件的发送来自邮箱用户的主动行为,可以映射到具体的人与人之间的关系。邮件的主题和内容包含了丰富的用户信息,通过对电子邮件数据进行分析挖掘,使用邮件的收发关系建立邮件通信关系网络,使用邮件主题、正文等进行文本挖掘。综合利用邮件通信关系和内容,以有效发现网络重要成员和可疑邮件。随着邮箱数量和邮件数量持续增加,在海量且复杂的电子邮件网络中基于传统串行算法实现且需要人工参与分析手段效率极为低下。由此对海量邮件数据挖掘平台的需求十分迫切。论文基于邮件通信关系和邮件内容的邮件挖掘技术,研究海量数据下邮件挖掘的并行算法,实现基于通信关系和内容的邮件挖掘系统。本文完成的主要工作包括:(1)在充分考虑业务需求的基础上,以通用性、扩展性和高效性为原则,设计了基于通信关系及内容的邮件挖掘系统架构,设计了系统功能模块,用户接口;(2)基于开源Hadoop,改进优化HDFS分布式文件系统和Map/Reduce并行计算环境,构建云计算基础环境;(3)设计了基于Map/Reudce的并行数据挖掘处理服务集,提供并行文本向量建立、联通图产生、内容相似度计算、内容聚类等挖掘处理服务;(4)实现了基于JavaEE的业务逻辑和用户接口,构建基于通联关系分析和通讯内容挖掘的邮件发现应用。本系统以云计算为基础,以并行数据挖掘服务为核心,构建邮件发现模型,为分析人员提供高效可用的数据挖掘服务和辅助分析手段。可以方便快捷的通过灵活扩充计算和存储资源,适应不断增长的邮件数量带来的处理需求。通过挖掘邮件内容和邮件通连关系提供多角度的视角和手段,提高分析效率和邮件数据的利用率。本系统自部署以来,运行稳定可靠,达到了预期设计目标。
其他文献
近年来,我国经济水平不断提升,其中农业经济的发展可谓是功不可没,水稻作为一种重要的粮食经济作物,其在我国的种植也越来越广泛,水稻的产量与质量也会直接影响到我国的社会
在时代飞速进展的背景下,林业方面的发展已经成为了我国进展的过程中或不可缺的一部分,当下时代飞速进展的促进下,对林业方面的进展要求也在逐步提高,因此,文章就此进行简单
伴随我国经济社会发展水平的不断提升和城市化进程的不断加快,人们对于生活环境的质量也提出了更高的要求。在这一背景下,园林绿化作为美化城市的重要途径,日益受到关注。然
本文首先从潢川金桂的历史渊源入手,对其从古至今的发展历程进行了简单的介绍,在此基础上又对它的形态特征进行了具体的描述,并且根据目前行业公认的标准,对潢川金桂的等级划
本文将着眼于畜禽规模养殖场对地方环境污染所带来的危害入手进行阐述,从中思考相应的环境污染问题治理对策,希望能够推动畜禽规模养殖场和环境保护两者之间的协调发展,以此
任何一种植物的栽培管理,都需要按照植物的生长特性以及生长环境,并在不同生育期对水和肥料的需求制定针对性的栽培计划,才能保证植物的产量。因此本文主要对大蒜的浇水施肥
本文首先分析了国内畜牧养殖业的发展现状,论述了畜牧养殖传染性疾病的综合防治措施,以供参考。
在我国林业经济快速发展的背景下,生态环境和经济发展之间的矛盾也日益深化。新时代的林业形式对于林业技术和林业发展提出了更高的要求。只有不断优化和创新现代林业技术,加
云杉为碌曲县的优良乡土树种,属于中国特有种,云杉林在水源涵养方面有着不可替代的作用,碌曲县由于受自身的地理和气候因素的影响,云杉林分布有限且集中。而叶锈病成为危害云