中文变异文本匹配识别技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ZF6VE5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的飞速发展,人们的生活方式也发生了巨大变化。人类逐步进入了信息时代。互联网的广泛应用在给人们的工作和生活带来了极大方便的同时,也带来了不能忽视的负面影响。在公共安全及舆论导向方面,按照《计算机信息网络国际联网安全保护管理办法》和《互联网安全保护技术措施规定》的规定,各交互式电子公告栏信息服务提供者(单位),应根据相关法规规定,采取安全技术措施,保障互联网网络安全和信息安全,促进互联网健康、有序发展,维护国家安全、社会秩序和公共利益。各网上论坛、开放式电子留言板,电子公告栏等网上交互式服务,应采取相应的安全技术措施,防止有害信息传播,确保互联网的健康有序发展。目前在中文环境下,信息检索和内容过滤一般选用基于精确字符串匹配的方法。但为了规避检测,出现了一些以同音字、形近字、错别字替换敏感词,拆分字及在关键词中添加若干无意义符号等文本变异情况。   本文在归纳总结变异文本匹配识别研究领域的国内外研究现状的基础上,分析了该领域中存在的问题,针对形近字或基于形近错别字替换的文本变异情况进行深入研究。本文还深入研究了汉字编码、造字方法及其检索原理,对匹配算法也进行了系统研究。在上述研究的基础上,本文提出一种中文变异文本匹配识别方法。该方法通过将目标文本和模式字符串进行特殊的编码转换,提高文本的相似度(即将中文字符用64个ASCⅡ码字符重新按照部首进行编码),并根据模式字符串中汉字字符结构特征对转换后的模式字符串添加适当的通配符,然后提出带有通配符的字符串匹配算法(即Chinese Variation-Boyer-Moore算法)进行匹配。CV-BM算法的特征是计算后跳距离时,除了传统Boyer-Moore算法的“坏字符规则”和“好后缀规则”外,还增加了整‘块’后跳规则,即目标文本中相互连续的标识符看作一个‘块’,并以‘块’为基本单位作为一个字符,确定后跳距离。该方法解决了变异文本中形近字替换及基于形近错别字替换的难以匹配的问题,较图像分割识别方法有着更小的时间和空间复杂度,更适宜于高速网络数据传输环境中的中文信息快速匹配,可以广泛的应用于需要对中文信息进行匹配的入侵防御系统、信息检索等系统中。
其他文献
"可变IP地址用户间通信支持系统"主要用于解析接入内部网的用户信息,实现对用户的可变IP地址的动态管理,为内部网中的用户提供信息服务,以达到支持可变IP地址用户之间进行通
该文提出了一种基于TCP/IP协议的IPSec,称为DL-IPSec.DL-IPSec分别对TCP数据报头和IP数据包载荷采用两种不同的加解密方式,其中一种方式由网络中可信任的中间路由器掌握以便
伴随着Internet商务应用和企业间电子交互需求的出现,业界诞生了"数据库/Web服务器/浏览器"的计算模型,该模型为企业提供了新的发展机遇,但是在这个模型中也存在许多如:安全
通过对VOD技术、服务器负载均衡理论和服务器集群理论的研究与分析,该文提出了媒体服务器集群的设计方案,详细阐述了OpenVideo系统的媒体服务器集群和负载均衡的设计与实现,
论文主要研究内容包括:1.研究了主分量分析方法,结合面瘫判定的应用特点,对于单帧静态表情图像,用主分量分析的方法判别表情模式.提出沿对称轴相减的预处理方法,判定模式时引
该文简要介绍了访问控制技术的研究状况,详细描述基于角色的访问控制技术的相关内容;分析了时间特性在访问控制技术中的重要意义;提出一个基于个体的时间访问控制模型(TIBAC)
大数据时代,关系型数据库不再适合存储海量的大数据,如何存储和处理海量数据已成为一个难题。Hadoop的出现使问题出现了转机,它是一个对大量数据进行分布式处理的软件框架,其核心
随着计算机技术的发展和应用,当前Intel芯片和Windows操作系统成为一个主流发展方向,在市场上占有相当大的比率。这种趋势使得很多厂商都必须去发展自己的产品,使其能与Windows
该课题是IBM的大学共享研究项目(SUR)中的一个组成部分,其目的是实现下一代语义万维网的基础构架.该文的贡献和创新之处总结如下:●将语义万维网和知识表示相结合,从知识表示
水电仿真系统的目的是建立一个对水电厂运行进行仿真的环境,用来培训运行人员,达到完成培训后即可上岗工作的要求.相比在真实仪器上的培训,它具有代价小、速度快的优势.其中