基于ATN算法和潜在语义索引的不良信息过滤系统研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:cracezhangxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网取得了突飞猛进的发展,网络信息越来越丰富,呈指数级增长,到现在为止,全世界已有几亿个网站。然而,任何事物都有两面性,在互联网飞速发展的同时,大量不良信息在网上肆无忌惮的传播,给社会治安、人民的正常生活带来了极大的负面影响。在这种情况下,过滤现有网络资源中的不良信息是当前计算机研究人员必须面对的挑战。论文分析了当前互联网存在的严峻形势,总结了当前常用的三种不良信息过滤技术的相关概念、特点以及相关产品,分析对比了三种过滤技术的过滤效果,优点与不足。并在此基础上设计了一个基于扩充转移网络算法(ATN, Augmented Transition Network)和潜在语义索引(LSI, Latent Semantic Indexing)的不良信息过滤系统。在系统中用ATN算法来代替传统的基于字符串匹配的分词算法,由于该算法基于汉语词法、语法规则,所以在分词处理结果上有更高的准确性。用潜在语义索引算法取代传统简单的向量空间模型来做信息的过滤,该算法在处理汉语“一词多义”和“多词一义”有很好的效果。为了将过滤成果应用到实践中,系统将过滤结果以PICS标签的形式保存在数据库中以便推广应用。最后为了验证系统过滤性能,用中国教育和科研计算机网紧急响应组(CCERT, China Education and Research Network Emergency Response Te-am)提供的中文邮件数据集(CDSCE, CCERT Data Sets of Chinese Emails)做了实验验证,结果表明,系统设计合理,过滤效果较好。
其他文献
图像获取过程中物体的相对运动或者对焦不准会造成图像的局部模糊,随着数码相机的普及,模糊图像复原成为计算机视觉研究热点之一。本文主要对单幅模糊图像的几种编辑方式进行
随着结构基因组的出现,通过结构进行生物功能预测已经发展成为结构生物学和生物信息学的主要目的之一。蛋白质的功能大体由它的三级结构决定的。研究蛋白质的结构有非常重要
对象检测技术是一门具有研究价值和实用意义的技术,同时也是一门极具难度和挑战性的技术。在众多对象检测技术中,车辆的检测是比较困难的一类检测,主要原因在于车辆具有各种
随着电力系统的规模越来越大,大量的非线性设备引起的谐波在造成电能质量污染的同时,也影响了电力系统的安全运行和电力用户的安全使用。因此,电能质量成为电力部门日益关注的问
面向服务的体系结构SOA通过服务的形式将传统软件系统的功能对外部开放,使得实现某个功能的服务被匹配、发现、组合和执行。传统SOA架构以服务提供者为中心,而没有从服务消费
随着移动机器人技术的不断成熟与发展,使用机器人替代人工进行海底侦测、零件加工组装、家庭服务和危险场所救援等领域的应用越来越多,移动机器人在人们的生产和生活各个方面
随着因特网的快速发展,为了顺应信息化网络的发展,路由器作为因特网重要的网络设备,随之不断的更新和发展,同时许多广域网技术也应运而生。POS (Packet Over SONET/SDH又称IP
多输入多输出(MIMO, Multiple Input Multiple Output)技术不仅能够利用多条天线来实现多发多收,充分利用空间资源,而且还能够在不增加天线发送功率与频谱资源的前提下,获得
随着Internet的普及,电子邮件已经成为了现代人际交流中逐受青睐的通信方式之一。然而由于电子邮件系统本身存在的技术缺陷,SMTP协议(简单邮件传输)对邮件发送不做任何身份验
随着互联网技术的发展和安全形势的变化,恶意软件的数量成几何级数爆炸增长,恶意软件的变种更是层出不穷,在经济利益的驱使下,恶意软件开始互联网化并形成了庞大的黑色产业链。传