论文部分内容阅读
随着互联网技术的兴起和普及,文本复制检测技术成为自然语言处理领域兴起的一个研究热点,它在保护知识产权方面的重要性日益明显。英文文本复制检测技术发展较早,但由于中、英文语言天然存在差异,因此诸多英文自然语言复制检测技术并不完全适用于中文。如何针对中文语言的特点设计出有效的检测方法成为了日益被关切的问题。抄袭者手段众多,包括对句子进行增删、同义词替换甚至语句重述。不同的抄袭方法各有特点,采用单一的方法往往无法达到理想的检测效果。目前复制检测受制于自然语言处理技术发展水平,无法真正深入到语义。基于字符串匹配和基于词频统计是复制检测中最常用的两种方法。本文主要以中文自然语言为研究对象,提出了一种统计任意长度n-gram频率的方法。针对常见的抄袭现象,分别在词汇片段、同义词替换以及文本指纹方面展开了研究,主要研究成果如下:(1)根据中文词长的特点,针对最常见的二字词提出了一种基于bigram的二级变长索引。该方法使用长度为2的滑动窗口,以字为单位对中文文本进行切分。利用汉字编码将汉字映射到索引的相关位置,在保证检索效果的情况下,极大地缩减了索引空间。同时利用地址编码的存放特点,使用高效的集合算法,实现对任意长度n-gram的检索和频率统计。同时,当文本库扩展时,索引无需重新构建。(2)使用Ferret方法,通过变换检测单元长度,并计算各长度下的复制检测准确率、召回率等指标,确定了适合中文的最佳片段长度。在此基础上,提出了一种基于核心片段中心距离的中文文本复制检测方法。使用该方法提出的重叠度计算公式,可进一步提高基于片段匹配的中文文本复制检测效果。(3)现有的同义词复制检测方法都是基于单个词语进行同义词扩展,忽视了词语在真实语言环境下的习惯搭配。针对这种情况,本文提出了一种基于同义词搭配的扩展方法。采用对词语搭配进行先扩展再过滤的方法,大大缩小了扩展集的规模,同时降低了检测噪音。以此为基础,提出了一种基于同义词搭配的重叠度计算方法。实验表明,该方法对于同义词检测有良好的效果。(4)利用句子的词性序列作为句子“模板”,使用句子“模板”加低频片段的方式进行哈希计算,生成文本指纹。通过比对指纹来判定句子之间是否抄袭。方法以句子为检测单位,避免了检测过程中受到上下文的影响。可作为其他检测方法的补充。