基于WM算法的中文信息过滤技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:hujin68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展使其成为世界上资源最丰富的信息网络,其蕴涵的大量共享资源,已成为人类获得信息的重要途径之一。随之带来的信息安全问题也日益严重,这其中不仅包括计算机病毒的威胁,黑客的攻击等,还包括“垃圾信息”的泛滥,网络中大量的反动、色情和暴力的不良信息的入侵,不仅影响我国的精神文明建设,同时也对社会稳定造成了潜在的威胁。 随着网络即时通讯工具的流行(QQ、ICQ、MSN、网易泡泡等),网络垃圾制造者传播不良信息的势头更是有增无减,他们常常变换不同的方式使不良信息逃脱传统过滤方法的阻挠,造成不良信息在网络中继续泛滥。例如:将敏感字(词)用同音字或拼音替代;将敏感字拆分成偏旁部首和非单字两部分;用“&”、“+”等特殊符号将敏感词间隔开。面对瞬息万变的网络信息,如何拦截过滤这些有害信息,怎样有效阻止不良信息蔓延,是网络信息安全研究必须要关注的问题。 本文对信息过滤技术进行了研究,包括信息过滤的特点、分类和组成,当前信息过滤所用到的匹配技术,和这些匹配技术在处理使用网络即时通讯工具环境下的经过变异的中文信息的不足。由于过滤有害信息的关键技术为识别信息中的有害关键词,因此过滤系统的性能很大程度上依赖于精确、快速的模式匹配技术,对此本文还介绍了模式匹配的相关背景和相关技术。 本课题中的信息过滤技术主要用于找出含有不良关键词的网络实时信息并对其进行屏蔽,对此,本文针对经过变异伪装处理的中文不良信息,将变异规则限定在当前中文中最常见的3种变异方法上,在此基础上提出了一个快速而准确的中文信息多模式匹配算法(CWM算法),该算法在WM算法的基础上针对中文字符串进行了改进,使其能够实时地对中文信息进行处理,从而有效的应用在过滤经过变异的中文信息上。基于该算法的信息过滤系统能够支持大量的模式,并且达到了很高的执行效率。该算法在中文信息过滤领域有着广阔的应用前景。
其他文献
以视频、音频为表现特征的大文件共享已经成为了互联网上的又一个热点。由北京大学网络实验室开发实现的“大学课程在线”及其第二版“大学堂”就是这样一个被中国近30所高校
人口数据的管理是国家人口管理部门的重要职能,是政府实施社会管理和公共服务的重要手段,也是提高政府部门工作水平,加强宏观管理的重要措施之一。   本文首先介绍了分布式体
学位
生物免疫系统是一个由细胞和各种组织组成的具有分布性、自适应性、自组织性、记忆性、多样性、鲁棒性的高度复杂的系统。近年来,人们发现由于计算机的运行机理和生物体有着天
随着网络中有限的资源被越来越多的用户所共享使用,网络拥塞问题变得更加严重。因此,拥塞控制对网络的稳定运行至关重要,然而,即使所有的链路和数据流都采用了拥塞控制机制,仍然可
学位
森林景观可视化技术在景观设计、林区规划以及其它森林经营活动中有广泛的应用。在保证场景真实感前提下,为了提高森林场景的交互性和实时性,要尽可能地减少绘制的工作量。遮挡
在自然语言处理及信息处理领域,例如信息检索、文本分类等,如何正确地识别出命名实体,一直是一项重要而又困难的研究课题。已有的研究多集中于纯文本文件,利用基于统计和基于规则
随着互联网的迅猛发展,它在人们的日常工作、生活和娱乐中都发挥着十分重要的作用。同时网络提供给人们的服务越来越多样化,特别是多媒体技术的大规模应用,同时网络用户的大幅度
目前被广泛采用的PKI技术(Public Key Infrastructure-公钥基础设施)是解决Internet上安全问题的一套完整的应用方案。它采用证书管理公钥,通过第三方的可信任机构一认证中心C
1982年,诺贝尔物理学奖得主理查德·费曼提出,量子计算机的计算速度远远超过经典计算机。20世纪90年代,Shor提出的量子素数因子分解算法以及Grover提出的量子搜索算法,证明了
近年来,伴随无线通信技术的快速发展,无线局域网得到了越来越多的应用。本论文研究基于IEEE802.11系列协议的无线局域网的性能改进机制。本文的主要贡献和创新点如下:   提出
学位