赌博网站的采集与识别系统的设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:appconfig
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展和网民数量的与日俱增,恶意网站对人们带来的安全威胁也是数不胜数。例如赌博、反动组织、假冒、钓鱼、诈骗等一系列非法网站。为了应对这种恶意行为,传统的方法是通过黑名单的方式来阻止。然而,随着一些新的网络技术的应用,恶意网站的层出不穷使得传统方式难以应对。在恶意网站为其恶意行为引入灵活性的同时,不可避免的引入了一些不同于正常网站的特征。恶意网站识别技术作为网络安全中的核心抵御技术,能有效识别并预防一系列的安全威胁,保护网络使用的安全性、健康性。本文通过对比分析国内外关于恶意网站的研究成果及现状,针对赌博网站领域,选出了本系统适用的赌博网站识别技术。系统的主要功能包括:数据采集模块、数据预处理模块、数据存储模块、数据识别模块。该系统是一个研究性项目,基于公司的数据分析系统,着重研究赌博网站,对主要功能模块做出详细分析,给出用例说明。在监控网站的实时监控前提下,本文将针对各大模块,设计赌博网站数据从采集之后到使用的整体流转过程,最后使得识别数据能够被实时的产出。同时,为了便于维护与二次开发,遵循团队主流技术路线,赌博网站识别系统的实现将基于Linux操作系统,使用Python语言、Scrapy框架进行开发,根据选取的各个机器学习算法中准确率的高低采取适用的机器学习算法进行识别,以完成网页数据的采集、预处理、存储与识别等功能,最终达到可以通过对互联网新涌现出来的网站数据进行统计和分析,可以以一定的准确度对其进行识别,将识别数据持久化,存储于ElasticSearch等存储系统中,为下游所有服务提供优质而全面的数据来源。用于恶意网站分析与一系列安全设备中。赌博网站识别系统目前已经完成并作为一个核心组件实际运行在公司的数据分析系统中,并针对识别准确度在不断完善中,为安全防护提供服务。
其他文献
随着中国旅游业的蓬勃发展、互联网信息技术的应用及消费者需求的不断变化,在线旅行服务行业规模不断壮大,商业模式不断创新,成为旅游服务中最具活力且增长最快的领域之一,成
就现场提取的生物检材而言,我们除了需要准确获得DNA STR分型进行个体识别和亲子鉴定,还希望能够通过技术手段获知其遗留时间、空间定位等更多信息。本文以血迹为主要研究对
介绍了一种基于STM32与A3988的步进电机多细分控制的设计,通过STM32控制定时器产生PWM信号,经过低通滤波后,完成PWM的DAC转换。利用其输出的动态变化的电压为步进电机驱动芯
目的评价关节镜下缝线桥分层修复术治疗肩袖分层撕裂的临床疗效。方法将2013年5月—2015年5月符合选择标准的54例肩袖分层撕裂患者纳入研究,随机分为两组,试验组28例行关节镜
近日,直销监管工作座谈会通报了直销企业开展自查自纠工作情况。据了解,43家直销企业在各级工商机关的指导下,认真开展直销市场专项检查及自查自纠工作,取得较好成效。专项检查期
报纸
<正>类风湿性关节炎在中医学属于顽痹、尪痹等范畴,临床治疗效果欠佳。若经正规足疗程治疗病情仍不能缓解或反复发作,出现进行性关节破坏的类风湿性关节炎患者,临床通常称为
<正>10月11日,由腾讯持股57.8%的微民保险代理有限公司获批经营保险代理业务,这意味着腾讯将可依托微信QQ正式开展保险业务。微信钱包九宫格最后一格有望落子保险。而早在9月
目的评价酶联免疫吸附法检测儿童肺炎支原体感染的临床意义和对系统、多器官损害程度,为临床治疗提供依据。方法采用酶联免疫吸附法。结果经ELISA法检测,284例呼吸道感染儿童
Tg(甲状腺球蛋白)是非常重要的随访分化型甲状腺癌的血清肿瘤标志物。但是,保证血清Tg检测的精密度和可靠性仍是目前体外检验最为困难的问题之一,不论采用哪种检测方法,TgAb(
目的:观察纳布啡超前镇痛对腹腔镜胆囊切除术患者术后镇痛及应激反应的影响效果。方法:从2015年9月~2016年9月江西省鹰潭市中医院接受并予以腹腔镜胆囊切除术治疗的疾病患者中随