基于Hadoop的邮件敏感词检测与告警技术研究

被引量 : 4次 | 上传用户:liongliong430
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据开始呈现爆炸式的增长,越来越多的互联网用户被淹没在数据的海洋中。因此,如何从海量邮件中快速检测到含有敏感信息的邮件已经成为目前亟待解决的问题。邮件敏感词的检测与告警是指通过制定敏感词词库,将邮件的内容信息与敏感词词库进行匹配,从而找出含有敏感信息的非法邮件,并对其进行告警。但是,传统的邮件敏感词检测与告警技术在具体应用中一般都忽略了对附件文本的检测,检测算法也不适合处理超大规模的数据量,并且其告警规则也简单粗略、非法邮件的抓取率低,因此存在很多弊端。本文结合某公司信息安全审计系统实际项目,研究了邮件敏感词检测与告警的相关技术。本文从研究背景、研究意义和研究现状入手,分析了敏感词检测与告警的相关技术及其现状,总结了现有检测算法与告警技术的不足。在此基础上,研究了基于中文分词的敏感词检测算法与基于决策树制定规则的告警技术,从而在一定程度上缓解了邮件敏感词检测所面临的主要挑战。最后,基于MapReduce、Hive、HBase、R等工具,本文在Hadoop平台上实现了这些算法,并初步构建了一个基于敏感词检测与告警技术的邮件安全监测原型系统。总结起来,本文的主要工作内容包含了以下几个方面:1)针对邮件附件数据量庞大而不被检测的问题,研究了当前主流的中文分词方法,将数据量庞大的附件内容划分成词语,再让这些词语进行敏感词匹配,从而降低了对邮件进行敏感词匹配的算法复杂度。2)针对传统告警规则简单粗略、非法邮件抓取率低的问题,采用当前主流的决策树算法制定规则,并制定了白名单、黑名单及人工检查的校验制度,从而更科学有效地制定出告警的规则。3)针对传统敏感词检测的大数据处理以及算法的可扩展性问题,本文将敏感词检测算法部署到了Hadoop集群上,让算法并行化处理,进一步提高系统的可扩展性。将邮件内容信息放在HBase中,可以解决大规模数据量的存储问题。将敏感词检测结果放在Hive中,可以高效地对大规模数据进行分析。4)在MapReduce、HDFS、HBase、Hive、R等的帮助下,设计并完成了一个邮件敏感词检测与告警的原型系统,为下一步的研究奠定基础。
其他文献
目的探讨急诊护理路径对急性心肌梗死抢救效果的影响。方法选取2009年1月—2012年1月本院急诊科抢救的急性心肌梗死患者80例作为研究对象,随机分为对照组和观察组,每组40例。
供应链是围绕核心企业,通过对信息流、资金流和物流的控制,从原材料的采购开始,直到把产品送到消费者手中,将供应商,制造商,分销商,零售商,直到最终用户连成一个整体的功能网链结构。
与不可转让信用证相比,可转让信用证的特别之处在于:受益人有第一受益人与第二受益人之分,且参与信用证业务的中介银行除付款、承兑、议付银行外还有办理转证的转让行。可转
能源和环境危机使人们越发重视可持续发展这条道路,作为喝油和排放大户的汽车产业成为了被关注的焦点,在汽车产业转型的过程中,世界各国都认同电动汽车这一发展方向。从全球来看
蚕虫草是一种由蛹虫草菌寄生于家蚕幼虫身上并产生子实体的一种虫菌复合物。家蚕因其最容易饲养、培育规模最大、且形态与冬虫夏草虫体最为接近而被选作寄主。家蚕幼虫体和蛹
情态动词是英语中使用频率较高的动词,用在行为动词前,表示说话人对一动作或状态的看法或主观设想。情态动词虽然数量不多,但用途广泛;虽然形式简单,但语义和语用用法比较复杂。由
商丘古城——国家级历史文化名城、全国重点文物保护单位,其城墙、城湖、城郭三位一体外圆内方的格局,在古代建筑中独树一帜。运用中国传统意境概念来分析,商丘古城的构图设
2012年7月和10月对白云湖中华鳖Trionyx sinensis养殖池塘浮游植物数量及环境因子进行监测,并运用相关分析和主成分分析对浮游植物数量和环境因子的关系进行研究。相关分析结
本文研究目的是为了梳理互联网行业发展的历程和现状,并分析政府行业监管中存在的主要问题,同时提出相应的对策、建议,从而更好的发挥政府监管职能,促进互联网行业整体健康、有序
本试验于2010年-2012年在山东农业大学试验站高产田内进行,以606为试验材料,研究了钙、硫肥不同用量及配比对花生生理特性、产量和品质的影响。主要研究结果如下:1钙肥不同用量