基于深度学习的有害信息网页判别分类

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:GISSeven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在我国的高速发展,我国已经逐步实现了社会的信息化,通过人口庞大的网民组成了一个数字社会。在这个数字社会中,网站是人们获取信息服务的重要手段。我国拥有着数量众多的网站,而每个网站又提供了大量的网页。然而其中许多网站并没有得到有效的维护,每年都有大量的网站被黑客入侵,导致网页被篡改,而篡改的网页基本上都在传播着有害信息,此外在政府的监管之外还存在着大量境外的专门传播有害信息的网站。这些大量地充斥在互联网上的有害信息不断地侵蚀和危害着正常的社会生活,因此要求政府相关部门需要对这一问题进行监管与治理,而监管的手段就是对各个网站发布的网页进行有害信息内容进行判别检测。因此,本文针对有害信息网页进行分类判别的问题进行研究,目的是通过多种手段提高针对网页中的有害信息内容的识别效果。本文围绕针对网页中的有害信息内容对网页进行分类的问题进行研究,主要的研究和贡献如下:(1)针对有害信息网页使用技术手段规避数据抓取导致普通的网页文本提取方法无法有效地抓取网页文本内容数据的问题,提出了网页实际显示文本提取方法。该方法通过使用无头浏览器实际加载网页得到其真实的内容后再进行文本提取操作,从而得到目标网页实际显示的文本内容数据。(2)为了更好更充分地利用网页中的图像数据,提出了使用网页全页面截图作为网页图像表示的观点。并且针对网页全页面截图长宽比过大不方便作为图像分类算法的输入的问题,提出了一种基于硬注意力机制的网页图像表示选取方法,通过从全页面截图上选取更有利于图像分类的部分,解决了长宽比不合理的问题。(3)使用网页文本数据进行分类时,进行了针对网页文本内容的停用词挖掘,通过去除网页文本中特有的停用词降低了数据中的噪声。提出了多层次特征融合文本分类模型,实现了对网页文本进行更好的分类预测效果。(4)结合网页的文本模态数据以及图像模态数据,提出了多模态融合网页分类模型,取得了不错的分类效果。
其他文献
目的:评价遗传因素和非遗传因素对吉林省某三甲医院长期使用华法林的汉族患者稳态剂量的影响,并筛选出适合本院患者华法林稳态剂量的预测模型,考察临床药师用药干预下华法林的抗凝效果与安全性。方法:以190例吉林省某三甲医院2016年8月-2018年9月长期服用华法林抗凝药的患者为研究对象,采用探针法对患者进行VKORC1和CYP2C9基因检测,分析不同位点VKORC1和CYP2C9基因型患者华法林日均稳态
学位
航天器中通过软件实现的功能越来越复杂,软件的可信性保障至关重要。中断数据访问冲突是当前影响航天嵌入式软件的关键可信问题之一,这个问题指的是,主程序和中断或者不同优先级中断同时对同一个共享数据进行访问导致数据一致性被破坏。中断数据访问冲突是一种典型的并发缺陷,非常难以测试发现。在航天软件研制过程中,目前主要依靠静态分析工具辅助人工审查进行检测,静态分析工具首先进行共享数据分析,在此基础上进行冲突检测
学位
随着现代集成电路规模越来越大,对片上系统(So C,System on Chip)的研究变得愈发重要。因为So C设计的复杂度不断提升,对其内部IP核之间的通信速度有着更高的要求,AMBA(Advanced Microcontroller Bus Architecture)总线中的AXI(Advanced Extensible Interface)以其高带宽、高性能、低延时的特点在高速通信中应用广
学位
随着电子信息时代的快速发展,新型集成电路与系统对微型化和功能化的电子器件的需求日益增加。作为核心供能单元,能源存储器件需要相应发展以实现集成电子系统的一体化应用。近年来,微型超级电容器具有极佳的功率密度和循环稳定性,得到了广泛的关注和发展。以石墨烯为代表的碳基材料,具有比表面积大,电子迁移率高等优异的物理化学性质,被广泛应用在能源存储领域。然而,受制于材料自身的结构与特性,利用该类材料所构筑的微型
学位
近年来中国的航空事业发展迅速,飞机的飞行时间不断增加,长期运转使得留机导管部件表面出现不同程度的磨损,及时有效的检修工作对于提高飞机的利用率具有重要意义。目前对于留机导管的缺陷检测工作大多依赖于人工目测和传统图像处理方法,存在主观性强、检测效率低、劳动强度大和通用性较差等问题,不能满足智能化留机导管缺陷实时检测需要。为解决上述问题,本文提出了基于深度学习的航空留机导管缺陷检测方法,该方法具有实时性
学位
脑分区分割是神经影像分析中至关重要的一环,也是计算机辅助进行脑部疾病检测、术前评估和手术规划等相关研究的基础。然而,人工进行脑分区标注需要大量有经验的医生且非常繁琐,极易引入人为错误。多脑分区分割是指使用同一个模型同时分割多个脑区,这比单个的脑分区分割更有挑战性。一方面,不同病人的脑部结构存在较大差异,另一方面,不同脑分区之间的尺寸差距也很明显。这对所设计的深度学习模型提出了更高的性能要求。目前,
学位
随着互联网和社交媒体技术的发展,每天都有海量的事件信息以文本为载体在网络中发布传播,由于网络中的信息是离散的,使得用户难以通过传统的检索方式了解事件的完整信息,因此如何能够及时高效地从海量文本数据中检测出人们感兴趣的主题事件,并经过有效筛选和有序组织形成完整明确的主题事件信息,已经成为文本处理和信息挖掘领域的研究热点。对于特定领域的用户而言,主题事件中包含的一系列子事件活动往往具有潜在的意图指向,
学位
随着信息技术的快速发展,寄存于第三方的数据隐私安全难以得到保障,个人用户以及企业会选择将数据加密后再传至云端,这使得传统的基于明文的关键词检索方案不再适用,可搜索加密技术应运而生。现今的可搜索加密方案大多是根据关键词与文档的联结关系直接构建索引的,查询关键词时并没有深入挖掘文档语义信息,有时无法返回给用户智能化的检索结果,同时文件索引结构复杂且空间开销较大,检索效率易受到文档数量递增的影响,设计方
学位
随着计算机技术、传感技术、人工智能的发展,眼动跟踪与视线估计技术取得了巨大突破,应用领域也不断扩展。然而将眼动作为自然人机交互手段,还面临诸多问题。例如,设备佩戴复杂或具有侵入性、米达斯接触问题、手眼冲突问题等。本文在研究了国内外的相关视线估计方法后,对现存问题进行分析后提出了相应的算法进行解决,进而设计了基于眼动的多屏控制系统对本文提出的算法进行验证与应用。具体包括以下内容:为确保设备在无侵入性
学位
随着互联网技术和计算机多媒体技术的高速发展,互联网平台和各大数据中心中汇集了海量的图像和文本数据。在这些图像和文本数据中往往蕴含着许多有价值的信息,如何充分挖掘并利用多模态数据中蕴含的关联信息,并进行更深层次的推理,已经成为一个重要的研究热点。随着深度学习技术的不断发展,计算机已经可以较为深入地挖掘单一的图像数据或文本数据内的信息。但是,使计算机挖掘图像和文本组成的多模态数据内的关联信息仍然是一个
学位