基于启发式的钓鱼网站检测技术的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zywlaoying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
钓鱼网站是在网页中包含恶意欺骗信息,引诱互联网用户提交个人信息从而窃取其隐私信息乃至个人财产的一种网络攻击方式。为了提高钓鱼网站检测的准确性,减少对第三方工具及资源的依赖性,本文对钓鱼网站启发式检测技术以及钓鱼页面主题识别技术展开了研究。首先,本文对网页内容预处理关键技术展开研究,在网页数据采集和存储方面,本文提出了一种更新式存储策略,定期对第三方平台公布的钓鱼网站进行信息资源采集。在网页文本特征获取方面,则利用针对网页文本的m-TextRank文本关键词抽取算法对网页文本信息特征进行抽取及储存。其次,为提高钓鱼检测的精确度和稳定性,本文通过及时识别新特征和精确选择最佳特征子集的方式来优化检测方案,并提出了一种多层启发式钓鱼网站检测模型包括特征提取层、特征选择层以及启发式分类层。该模型利用五个特征选择算法来预处理特征集,并研究了三种基于决策树的分类算法的性能与效果。实验结果表明,使用信息增益算法进行特征选择并结合随机树分类算法的钓鱼网站检测方法能够在低时间开销下达到96%的准确率和95%的召回率。再次,为了研究网页主题和网页合法性的相关性以及钓鱼网站的主题分布情况,本文提出了基于LDA-SVM的钓鱼网页主题识别算法。该算法通过对网页文本内容进行预处理、Gibbs抽样、LDA建模、SVM分类、效果评估等步骤建立LDA-SVM主题分类模型从而实现对网页主题的识别。经实验验证,钓鱼网站的主题识别准确率可达93%。随后本文根据上述主题分类模型对经过启发式检测的网站进行主题鉴别,为启发式钓鱼网站的检测结果提供佐证。最后,在上述研究基础上,本文设计并实现了钓鱼网站启发式检测系统。该系统主要提供网页信息采集、合法性检测以及网页主题识别的功能。系统测试结果表明,系统能够满足对未知网站的合法性检测需求,整体满足预期目标。
其他文献
计算机技术和集成电路技术的迅速发展,为嵌入式应用提供了广阔的发展空间。嵌入式技术正越来越广泛地被应用在通信、电子、工业、交通等诸多领域,而高性能、廉价、低功耗的AR
随着经济全球化的到来,科技创新成为新形势下提升国家综合国力的核心要素之一。在众多的科技创新方法中,前苏联G.S.Altshuller提出的“发明问题解决理论”脱颖而出,并逐渐被
随着Web应用的快速发展,以Web服务为基础的自媒体平台成为了民意的聚集地与舆情的发源地。政府部门为了把控网络舆论的走向,需要构建一套有效的舆情引导机制,Web行为模拟技术
随着电子商务的迅猛发展,物流配送的效率显得越来越重要,用户如何更高效、更廉价地选择并使用适合自己的物流服务提供商已经成为用户颇为关心的一个问题,因此,如何设计有效的
随着计算机技术的迅速发展,软件的变化也受到了前所未有的关注。以服务为核心的SOA (The Service-Oriented Architecture)架构使得跨企业的应用集成以及企业内部应用的集成成
随着市场经济深化和政府职能转变,地方政府为了调整经济结构、加快城乡基础设施建设,运用多种融资方式,多渠道筹集建设资金,在一定程度上有力推动了地方经济建设和社会事业发
随着国家信息化发展战略的实施,电子政务在我国各地已经取得长足发展,但在其实施过程中,网络和信息系统的安全问题日益突出,建立一个以PKI/CA为核心的健全的电子政务安全体系
校园网是社会信息化发展的必然产物,它担当着教学、科研、管理和对外交流等许多角色,因此其安全性非常重要。本文通过对多种安全技术的研究和比较,提出了采用数字签名来保障
森林资源的可持续经营是林业可持续发展的重要基础,是提高森林资源质量,增加森林资源总量,满足社会对林业多样化需求的重要举措。由于森林生长的长期性,森林经营者既要掌握森
Ad Hoc网络是由无线移动终端组成的多跳的临时自制系统,它不需要预先架设基础网络设施就能快速组网。由于Ad Hoc网络自身独特的特点,如何设计性能优良的路由协议已成为当今Ad