基于主题与语义的作弊网页检测方法研究

来源 :北京化工大学 | 被引量 : 3次 | 上传用户:sunday_rectina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络中的信息量呈爆炸式增长,互联网已经成为人们获取信息的最主要渠道之一。作为信息检索过程中不可缺少的重要工具,搜索引擎在给人们带来便利的同时,也给用户带来了潜在的安全隐患。网页作弊(Web Spam)是一种通过不正当方式来误导搜索引擎,从而向用户提供不良信息的行为,其严重影响用户的上网体验,给用户带来了安全隐患,同时也影响着搜索引擎的性能。如何对作弊网页进行识别与过滤,提供高质量的搜索结果,已成为现代搜索引擎的巨大挑战之一。本文的主要研究内容以及研究成果包括:(1)研究网页作弊的相关原理及技术。对搜索引擎相关原理进行分析,并研究了搜索结果排序原理,如TFIDF模型与PageRank等算法;结合搜索引擎结果排序原理,分析作弊网页的特点,研究作弊原理以及相关技术;根据常见的网页作弊手段,研究对应的反作弊方法。(2)提出了一种基于主题与语义的作弊网页检测方法。对主题模型与语义分析原理进行分析;研究作弊网页在主题与语义方面的特点,提出基于主题与语义的检测特征;对网页内容进行主题建模与语义分析,提取相关特征;构建分类器对作弊网页进行分类识别。(3)设计并实现了一个基于主题与语义的作弊网页检测系统。构建网络爬虫程序,实现对互联网网页的抓取;对网页进行分析与处理,进行主题建模,提取相关特征,构建检测样本;构建机器学习分类器,对网页进行分类检测,并展示结果。(4)设计实验对本文提出的基于主题与语义的作弊网页检测方法的可行性进行验证。实验结果表明,本文提出的作弊网页检测方法能够有效的对作弊网页进行识别,比起传统的基于统计的检测方法,本文的方法可以获得更高的精确率、查全率与F1测度。
其他文献
关联规则挖掘是数据挖掘领域的重要研究方向。关联规则反映的是数据之间一种内在的关联关系。发现数据间的这种内在联系,有利于决策者利用这些规则做出正确和合理的决策。
人群行为分析和异常检测是计算机视觉、模式识别和智能交通等的交叉研究领域,近几年已成为人工智能和视频监控技术等方面的研究热点。本文针对简单无结构场景和复杂结构化场景
目前在PC和工作站上,文字和数字处理的软件发展良好,以MS Word、MS Excel、MS PowerPoint为代表,包括WPS,另外有PDF格式的文本处理。随着多媒体的实现,在Word中集成了多种对
计算机网络会议是一个同步协作会议,通过网络会议,不同地区的与会者们能够使用与网络相连的计算机共同协作完成某些交互程序,例如:董事会议、科学讨论甚至是虚拟教室。在网络
随着Internet的强势发展,网络上的信息量成爆炸趋势增长,如何使人们快速、准确的在浩瀚的资源中发现自己需要的信息成为关键。目前的搜索引擎虽然在一定程度上缓解了这一矛盾
近年来随着Internet的飞速发展、网络带宽的成倍增加以及计算机计算能力的大大提高,对等网络(Peer-to-Peer,简称P2P)成为了计算机网络技术研究领域的一个热点。P2P网络通过对
如今,机器人在人们的日常生活中扮演了越来越重要的角色,从服务型机器人,到娱乐型机器人,种类越来越繁多,应用越来越广泛,机器人的结构也越来越复杂。机器人控制系统是移动机
随着计算机网络技术和通信技术的高速发展,网络安全和数字签名技术已经引起人们的密切关注,逐步成为计算机科学研究的热点领域。而普通的数字签名技术已经不能满足许多应用的
网格能充分利用因特网上丰富的闲置资源,协同解决复杂的科学或商业问题。当移动设备或人作为新型移动节点加入网格时,传统的网格计算环境扩展为无线移动网格计算环境,此时基
企业过程工程(Business Process Engineering)是指用系统工程的方法指导企业过程的开发和运作,它包括企业过程的定义、模拟、优化和运作四个阶段。企业过程模拟是对企业模型