基于n-gram的中文文本复制检测研究

来源 :湖南大学 | 被引量 : 5次 | 上传用户:renbai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的兴起和普及,文本复制检测技术成为自然语言处理领域兴起的一个研究热点,它在保护知识产权方面的重要性日益明显。英文文本复制检测技术发展较早,但由于中、英文语言天然存在差异,因此诸多英文自然语言复制检测技术并不完全适用于中文。如何针对中文语言的特点设计出有效的检测方法成为了日益被关切的问题。抄袭者手段众多,包括对句子进行增删、同义词替换甚至语句重述。不同的抄袭方法各有特点,采用单一的方法往往无法达到理想的检测效果。目前复制检测受制于自然语言处理技术发展水平,无法真正深入到语义。基于字符串匹配和基于词频统计是复制检测中最常用的两种方法。本文主要以中文自然语言为研究对象,提出了一种统计任意长度n-gram频率的方法。针对常见的抄袭现象,分别在词汇片段、同义词替换以及文本指纹方面展开了研究,主要研究成果如下:(1)根据中文词长的特点,针对最常见的二字词提出了一种基于bigram的二级变长索引。该方法使用长度为2的滑动窗口,以字为单位对中文文本进行切分。利用汉字编码将汉字映射到索引的相关位置,在保证检索效果的情况下,极大地缩减了索引空间。同时利用地址编码的存放特点,使用高效的集合算法,实现对任意长度n-gram的检索和频率统计。同时,当文本库扩展时,索引无需重新构建。(2)使用Ferret方法,通过变换检测单元长度,并计算各长度下的复制检测准确率、召回率等指标,确定了适合中文的最佳片段长度。在此基础上,提出了一种基于核心片段中心距离的中文文本复制检测方法。使用该方法提出的重叠度计算公式,可进一步提高基于片段匹配的中文文本复制检测效果。(3)现有的同义词复制检测方法都是基于单个词语进行同义词扩展,忽视了词语在真实语言环境下的习惯搭配。针对这种情况,本文提出了一种基于同义词搭配的扩展方法。采用对词语搭配进行先扩展再过滤的方法,大大缩小了扩展集的规模,同时降低了检测噪音。以此为基础,提出了一种基于同义词搭配的重叠度计算方法。实验表明,该方法对于同义词检测有良好的效果。(4)利用句子的词性序列作为句子“模板”,使用句子“模板”加低频片段的方式进行哈希计算,生成文本指纹。通过比对指纹来判定句子之间是否抄袭。方法以句子为检测单位,避免了检测过程中受到上下文的影响。可作为其他检测方法的补充。
其他文献
目的探讨Lenstar LS900与A超角膜测厚仪测量LASIK术后中央膜厚度(CCT)的差异。方法随机选取LASIK术后6个月以上患者28例(56眼),分别用Lenstar LS900及A超角膜测厚仪依次重复
<正>作为时尚酒店的一部分,会所的设计也需要能满足新生代客人的需求,风格、个性、温馨和亲切是设计的关键词,这个"离开家的家"需要给人耳目一新的感受,引领客人来寻找一种特
期刊
利用叶绿素荧光仪对一串红(Salvia splendens)荧光参数日变化进行研究,结果表明,07:00—13:00一串红叶片叶绿素PSⅡ的最大光化学量子产量总体呈现下降趋势,13:00—16:00总体
随着我国社会经济的发展,工程建设规模扩大,工程建设类项目数量显著增加,我国工程项目建设中采用招投标制度对相关企业和施工单位进行约会和选取,但目前的建筑工程市场仍有大
语文"差生"探因及转化银川农垦中学马家骅语文差生,顾名思义就是语文成绩差的学生。这部分学生教师不可忽视。要大面积提高语文教学质量,就不能不在这部分学生身上下功夫。语文差
随着市场品牌化发展和产品更迭速度的加快,老字号品牌的市场地位面临剧烈冲击,生存压力与日俱增。本文以中国安徽老字号"曹素功墨锭"为例,根据传统品牌的发展经验,具体分析老
中国作为一个曾经被西方人称为“遍地是黄金”的文明古国,曾对周边国家的文化发展有很大的影响,许多人文文化到现在为止都还在影响着世界。现在我们在考古或是研究的时候经常
酯类离子液体与传统的离子液体相比具有较好的生物可降解性,在实际工业应用中具有潜在的应用价值,逐渐成为近年来的研究热点之一。酯类离子液体的工业化应用离不开该类离子液
“从乡下中小学到省城高等院校,接触过不同层次的许多教师;从山区老农到各行职员,接触过不同身份的许多家长。在平常的闲谈之中,时时感触到他们在教育学生方面的一个普遍看法,那就
期刊
目的:观察膝痛Ⅰ号方治疗风寒湿型膝关节骨关节炎的疗效。方法:32例随机分为治疗组及对照组各16例,治疗组服用膝痛Ⅰ号方,对照组关节内注射透明质酸钠注射液。结果:总有效率