基于数字指纹的文本抄袭检测算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yangqun0215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于数字指纹的文本抄袭检测算法已经广泛应用于信息检索、网页去重、图书馆资源版权保护、软件著作权保护等领域。数字指纹检测算法具有存储空间小、检测速度快的优势,适用于大规模的文本集抄袭检测系统。本文在论述了数字指纹检测算法的基本原理和主要流程的基础上,重点围绕文本特征提取以及数字指纹提取展开研究工作。针对文本抄袭检测中存在特征数量多的问题,本文对常见的文本块划分方法进行了研究,在句子粒度划分和词语间依存关系的基础上,对文本特征提取算法作了一定的改进,该算法可解决对依存句法关系考虑不足的缺陷,有效降低了特征数量。此外,为了减少数字指纹密度,降低计算复杂度,本文对数字指纹特征提取算法作了一定改进,该算法基于Winnowing滑动窗口机制,根据最优决策模型和最优约束条件选取文本的数字指纹。实验表明,本文所提出的文本特征提取算法能够准确选择文本的特征集,解决了文本特征数量多的问题,检测的准确率也有所提高;改进的数字指纹提取算法在一定程度上减少数字指纹密度,降低了存储空间。
其他文献
无论是在图形学领域还是计算机辅助设计及各种模拟计算方法中,特征都是几何模型中最重要的部分,由于其具有特殊的几何性质,被广泛应用于几何造型,网格分片,网格形变以及几何
支持向量机(SVM)作为一种新的人工智能技术,它最大的优势是解决了样本数据不足时的学习问题,并且得出了较好的效果。目前,SVM是人工智能研究的热点。诸多研究指出,SVM分类效
随着工业化的快速发展,视觉技术越来越多的与PLC一起应用到工业生产中。目前IEC 61131-3标准和PLC OPen国际标准只对逻辑控制编程和运动控制编程进行了规范,但没有制定PLC的
移动Ad Hoc网络是由一组无线移动节点组成,是一种不需要依靠固定基础设施的、能够迅速展开使用的通信系统。是完全分布式系统,不需要任何中心实体、自组织、自愈的网络。随着
随着计算机相关技术的飞速发展,实时系统的应用领域得到了极大的拓展。实时系统中很多动作的发生必须要满足规定的时间约束,否则可能会导致严重的损失。因此,如何保证实时系
褶皱是人类大脑皮层的一个基本形状特征,它对于刻画人类大脑的结构来说非常重要,这些褶皱的形状不仅在不同的大脑之间表现出差异性,而且在同一个大脑上的左右半脑上都显示出
不确定数据聚类是传统数据挖掘的扩展,具有广泛的应用背景和研究价值,受到研究者们广泛的关注。不确定数据聚类问题属于典型的NP难解问题,并表现出了典型的NP难解问题的特点
新颖人机交互技术日益成为当前的研究热点问题之一,手势识别技术因为其自然性和实用性在计算机视觉和人工智能等领域成为一个极具发展前景的课题。传统的手势识别技术大多是基
由于现代社会对安全需求的提高,生物特征识别技术得到了广泛应用,步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别。相比其他特征,步态可以在被识别对
互联网技术的发展给越来越多人的日常生活带来便利的同时,往往使得人们淹没在信息的海洋中,很难及时地找到所需要的信息,也就是信息过载现象。随着Web2.0的迅速发展,人们希望