论文部分内容阅读
“钓鱼”在互联网概念中指通过在网页中携带欺骗信息,意图获取用户个人隐私数据的一种互联网诈骗方式。2013年钓鱼网站持续快速增长,每天有接近600万网民会访问各种不同类型的钓鱼网站,一旦用户在钓鱼网站中提交了重要信息,很有可能会对用户财产造成损失,及时准确地发现钓鱼网站对保护互联网用户财产安全具有积极意义。随着反钓鱼引擎的发展,钓鱼网站制作者越来越善于利用隐藏技术躲避检查,本文通过处理渲染后的实际页面,防止敏感数据隐藏。针对钓鱼网站中制作与正规官方网站相同或类似的页面,骗取用户信任的仿冒网站为研究点,采取预设白名单,使用包括URL自动生成、元搜索查询、邮件监测等多数据源主动探测方式,尝试主动发现新增的仿冒网站。为检测仿冒网站,本文提出了一种网页视觉块选择算法,将完整网页划分为不同种类的视觉区域,并提出了基于视觉区域匹配的网页相似度评价方法,按区域匹配度衡量整个页面的相似度,综合考虑了页面中的图片区域相似。为了实现页面中图片的快速相似比对,本文改进了一种图片感知哈希计算方法,通过将图片映射为一串32位的十六进制值实现图片相似比对。本文分别采用支持向量和朴素贝叶斯解决视觉块种类划分和仿冒网站判断方法,通过建立视觉块和页面索引实现仿冒网站快速判断。除考虑被保护网站外,本文建立仿冒网站模板特征索引作为黑特征库,通过建立仿冒网站黑特征库,可以有效地提高检测召回率,做到一次发现,永久杜绝,以此提高仿冒网站的制作成本。最后本文设计并实现了一套仿冒网站主动监测系统,输入被保护网站和仿冒网站,分别建立被保护网站特征库和仿冒网站模板特征库,通过样本数据获得训练模板,对多探测数据源发现的待检测网页进行仿冒判断。实验证明本文提出的系统可以有效发现仿冒程度大和已发现的黑模板仿冒网站。