论文部分内容阅读
随着计算机网络的飞速发展,人们的生活方式也发生了巨大变化。人类逐步进入了信息时代。互联网的广泛应用在给人们的工作和生活带来了极大方便的同时,也带来了不能忽视的负面影响。在公共安全及舆论导向方面,按照《计算机信息网络国际联网安全保护管理办法》和《互联网安全保护技术措施规定》的规定,各交互式电子公告栏信息服务提供者(单位),应根据相关法规规定,采取安全技术措施,保障互联网网络安全和信息安全,促进互联网健康、有序发展,维护国家安全、社会秩序和公共利益。各网上论坛、开放式电子留言板,电子公告栏等网上交互式服务,应采取相应的安全技术措施,防止有害信息传播,确保互联网的健康有序发展。目前在中文环境下,信息检索和内容过滤一般选用基于精确字符串匹配的方法。但为了规避检测,出现了一些以同音字、形近字、错别字替换敏感词,拆分字及在关键词中添加若干无意义符号等文本变异情况。
本文在归纳总结变异文本匹配识别研究领域的国内外研究现状的基础上,分析了该领域中存在的问题,针对形近字或基于形近错别字替换的文本变异情况进行深入研究。本文还深入研究了汉字编码、造字方法及其检索原理,对匹配算法也进行了系统研究。在上述研究的基础上,本文提出一种中文变异文本匹配识别方法。该方法通过将目标文本和模式字符串进行特殊的编码转换,提高文本的相似度(即将中文字符用64个ASCⅡ码字符重新按照部首进行编码),并根据模式字符串中汉字字符结构特征对转换后的模式字符串添加适当的通配符,然后提出带有通配符的字符串匹配算法(即Chinese Variation-Boyer-Moore算法)进行匹配。CV-BM算法的特征是计算后跳距离时,除了传统Boyer-Moore算法的“坏字符规则”和“好后缀规则”外,还增加了整‘块’后跳规则,即目标文本中相互连续的标识符看作一个‘块’,并以‘块’为基本单位作为一个字符,确定后跳距离。该方法解决了变异文本中形近字替换及基于形近错别字替换的难以匹配的问题,较图像分割识别方法有着更小的时间和空间复杂度,更适宜于高速网络数据传输环境中的中文信息快速匹配,可以广泛的应用于需要对中文信息进行匹配的入侵防御系统、信息检索等系统中。