查重技术及其在信息校验中的应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:fl908720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的发展,与知识产权保护、学术研究、信息检索和各种申报与统计分析等应用相关的信息越来越多,而在这些应用中需要对大量信息是否重复或相似进行检查,包括直观的内容重复或相似检查、隐含的内容重复或相似检查、内在的约束关系校验等,查重方法和技术是解决此类问题的关键,是建立高效和实用的信息校验系统的基础。 本文以学科和论文类信息采集与评估应用系统为背景,重点研究以中文分词技术为基础的查重方法和技术,提出一种信息校验系统结构,在此基础上通过实验方法研究了查重技术及其应用问题,实现了以词法和语法信息为辅助信息的文本重复与相似的查重算法,并对算法的性能进行了分析研究。 以实际的学科类和论文类信息采集系统为背景,本文介绍了现有的文本查重技术及方法,总结分析了本领域中相关的概念模型,研究了多种查重算法和实现技术,具体分析了信息校验系统中需要解决的查重关键问题,研究分析了不同的经典信息查重算法原理和模型,用实验数据对以词法和语法信息为辅助信息的文本重复与相似的查重算法进行测试分析,研究查重算法的运行性能等应用问题,为实现高效和实用的信息校验系统提供参考。
其他文献
主对偶方法路径长度受限顶点多路割问题本论文主要以线性规划为工具对一类图上覆盖问题的算法进行了研究。在讨论这一类图上覆盖问题共有的线性规划模型基础上,具体针对混合支
计算机在处理文本时,在句子和篇章之间存在着明显的语义鸿沟。句群是介于句子和篇章的语法单位,可以有效地降低语义鸿沟带来的不利影响。因而如何从篇章中划分出句群成为研究
随着信息技术的飞速发展,人们的生产生活对人机交互技术的需求也越来越大,而人体姿态识别技术作为人机交互技术中的重要组成部分,也成为了当前的研究热点。目前已经有一些研究成
金融网点选址是否得当直接关系到金融企业的经济效益,因此需要制定科学的选址策略。传统的选址分析方法存在着一定的缺陷,无法满足当今金融网点选址的需求。应用科学的选址模
随着信息技术的迅猛发展和数字图像应用的日趋广泛,许多大型、复杂的图像信息库不断涌现出来。如何从海量的数字图像中快速准确地找到所需要的图像数据越来越受到人们的关注
随着网络技术和数据库技术的不断发展,企业不断进行信息化建设,各个部门根据各自的信息要求和特定的应用选择了各自的软硬件环境,从而使得部门之间不断的孤立,很难实现部门之
随着医疗信息化技术的发展,越来越多的医院通过使用图像存档和通信系统(Picture Archiving and Communication System,PACS)和医院信息管理系统(Hospital Information System
在数字图像处理领域中,图像插值是一种最基本、最常用的几何运算,其已经广泛应用于数字图像处理领域中的图像分辨率增强、图像放大等应用。图像插值放大通常是指在不改变图像
矢量场可视化是科学计算可视化的研究热点,广泛应用于计算流体力学等领域。在矢量场中,传统可视化方法仅表示某些特定点附近矢量的分布特征,而无法反映矢量场的整体结构信息
随着Internet与嵌入式设备的高速发展,嵌入式浏览器得到了广泛应用。但是大多数嵌入式浏览器只提供了最基本的浏览功能,不提供对敏感数据的加密功能,所以无法满足用户收发E-m