基于音形码的中文敏感词变形体检测

来源 :南京大学 | 被引量 : 0次 | 上传用户:howard2000_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络信息技术已非常成熟的今天,每个人都能通过网络对时事政治,文学艺术,历史纪实等方面,随时随地的发表自己见解和看法。这就带来了隐患,因为并不是每个人都能遵守国家制定的互联网管理法律法规,会有一些人在网络上发布一些有害言论,这些包括色情、暴力、政治敏感等内容的言论极大的损害了互联网的网络安全,也给社会稳定带来了不利因素。有害言论主要是由有害的敏感词组成,为了净化网络环境,我们急需有效的措施来对这些出现敏感词的文字进行检测和过滤,营造健康的网络空间。目前大部分对于敏感词的检测方法都是采用简单的字串匹配例如KMP算法,这些字串匹配是基于精确字符串的匹配,从给定的目标串中找出模式串出现的位置,这需要模式串的每一个字符都要与找出的目标串匹配。但是一些别有用心的言论为了躲避现有的检测手段,往往采取特殊的表达方式来欺骗检测系统,例如(形近音近字拆分字等)将敏感词进行变形处理这就使得检测难度极大的增加,对检测算法的要求也随之提高。针对上面的问题,本文提出了一种基于音形码的新型的中文字符匹配方法用于检测敏感词。该方法将常用汉字通过改进后的音形码进行编码,通过该编码计算汉字的相似度。然后基于传统字典树,使用模糊匹配这一概念对目标串进行逐一匹配,当两个汉字的相似度大于模糊匹配参数即可认为命中。模糊匹配参数可由人工设置修改,用来指示检测力度,参数越小,检测力度越大,反之则越大。这种方法可以把多个应对单一变形敏感词的方法结合起来,能够应对汉字转拼音,音近字,形近字,拆分字这几种变形手段及其组合。其中拆分字需要对敏感词库进行另外的处理步骤。同时本文还提出了一种将汉字相似度量化的方法,该方法基于统计学概念,将汉字是否相似以及在多少程度上相似这一主观的标准转换成客观的标准,并在这一标准下分析实验结果,在常用的汉字数据集上,准确率要明显高于已有的检测方法。这有效地提高了有害言论审查的准确度,提高了过滤能力。
其他文献
反应性金属材料由于其体系自身被引发反应后能释放出大量的热,并通常具有较高的质量密度,因此可被用于制做反应性破片、破甲弹药型罩等,其在轨道焊接等领域也有广泛的应用。目前较常见的反应性材料体系为Al-Ni体系,Al-Ni体系反应性材料具有较高的反应放热量,但其块体材料的密度不够高,约在4.5 g/cm3左右。因此,有必要寻找一种同时具有相对较高的反应放热量和较高质量密度的反应性材料体系。本文使用计算机
随着全民健身国家战略的落实和有效推进,国家经济水平的提升,人们生活水平也随之提高,人们认识到体育锻炼的重要性,越来越多的人参与到体育锻炼中来,尤其是在国家推出一系列
铜绿假单胞菌SJTD-1是从石油污染的土壤中分离出的一株新型假单胞菌。本课题组以往的研究结果表明此菌可代谢C12C30的正构烷烃,并且能够以烷烃作为唯一碳源在无机盐环境下生
随着传统化石燃料的日益枯竭,迫切需要开发可持续的清洁能源和能量储存装置。锂离子电池和超级电容器等新型电化学储能器件在诸多领域具有广泛的应用。超级电容器具有较高的功率密度、较快的充放电速度、较长的循环寿命和较宽的工作温度范围等特点;锂离子电池具有较高的工作电压和较大的能量密度等特点,但充放电时间较长。因此,超级电容器和锂离子电池在一定程度上可以互补。多孔碳材料由于具有复杂的孔道结构、良好的导电性和可
中碳合金高强钢中回火马氏体能够提供很好的强度和韧性匹配,而马氏体钢低温回火过程中析出的过渡碳化物在提升钢的强度和韧性上起着很大的作用。关于低温回火的研究很多,但是低温回火过程中碳偏聚阶段(从马氏体中碳的扩散到碳化物的析出阶段)特别是马氏体中碳固溶度的变化仍未研究清楚。本课题重点阐述了一种新的研究方法——热电功(Thermoelectric Power,简称TEP),结合金相(Optical Mic
在交通修补作业、路面切缝作业、滑模施工作业和爆破施工等作业中,新浇筑混凝土有可能受到周围环境的振动干扰,扰动使其水化反应受到影响,内部微裂纹增加,引起力学性能与耐久性能下降。同时,混凝土材料属于准脆性材料,存在尺寸效应,而目前对混凝土受扰动的相关研究多是基于相同的试件尺寸,未考虑到尺寸的影响。基于此,为研究扰动对混凝土性能的影响程度和试件尺寸之间存在的关系,本文以试验研究和理论分析相结合的方法,选
计数数据广泛存在于我们的生活中,是一种非常普遍的数据类型,在医学、金融、精算、工业、旅游等众多领域都存在着大量的计数数据。泊松回归模型是用来处理计数数据最常用的模型,然而在实际应用中通常会遇到零过多的计数数据样本,即零膨胀数据。针对这类数据,专家提出了零膨胀泊松回归模型,但是在实际建立零膨胀泊松回归模型时常常会遇到以下两种情形:协变量有时不是全部被观测到的,可能存在缺失值的情形;同时多个高维协变量
生物材料的铁电性是生物与物理领域的结合,在生物传感、疾病诊断和治疗方面具有巨大潜力。从20世纪50年代Fukada发现木材中的压电特性开始,生物材料的铁电性开始受到关注。随着现代实验技术的进步,发现了诸多生物材料具有压铁电性压,如骨骼、主动脉壁、指甲、牙齿、贝壳和肽纳米管等。然而生物材料结构复杂使得其铁电转换的一般原理还缺乏研究。甘氨酸是最简单的氨基酸,也是构成生物材料的基本单元,因此对甘氨酸铁电
超级电容器由于具有高功率密度、良好的倍率性能和循环稳定性以及环境友好型等优势成为电动汽车理想的辅助电源之一。电极材料作为超级电容器最重要的组成部分,其性质对超级电容器的综合性能起到决定性的作用,因此,制备高性能的电极材料是提高超级电容器性能的重要手段。在各类电极材料体系中,能够发生可逆氧化还原反应的法拉第电极材料由于具有高的理论比容量,逐渐被应用于超级电容器中。本论文首先简要介绍了超级电容器的发展
为满足迫切的能源需求,研发环保无污染的储能设备和先进的能量转换装置来替代传统资源成为近年来科研工作者的工作重点。超级电容器(SCs),作为一种新型储能装置,因其出色的特性(如高容量,快速充电/放电,超长寿命和安全性)而备受国际关注。为提高SCs的电化学性能,对电极材料的探索成为研究工作的重要组成部分。石墨烯因为自身的优异性能,成为一种理想的电极材料。目前,由于石墨烯大规模商业化应用还面临很多制约因