基于文档指纹的中文复制检测方法

来源 :广西师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:arnohuang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。
其他文献
介绍一种在EDA软件平台上,应用VHDL对FPGA/CPLD进行自动化设计的流程,并用实例说明了在EDA平台上进行电路设计、实验的具体方法及研究.
采用比例微分控制器(PDC)实现自治和非自治动力学系统中的混沌控制,给出了三个典型混沌系统的控制结果.理论分析和系统仿真结果表明:这种控制方法可以实现混沌控制的两个目标
中国化学会第25届学术年会于2006年7月11-15日在吉林省长春市举行。会议由中国化学会主办,吉林大学承办。大会主题:化学与社会——化学在社会可持续发展中的地位与责任。会议包
文本分类技术是文本信息处理的核心技术之一,主要包括文本的向量模型表示、文本特征选择和分类器训练三大过程。本文提出了一种混合(EIBA+DHChi2)特征选择算法,并将所获取的特征
RNA二级结构预测是生物信息学的一个重要研究内容。作为预测方法之一的神经网络已被广泛应用于蛋白质结构预测,但在RNA二级结构的应用甚少。本文改进传统预测RNA二级结构的Ho
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作
采用不同培养基对西瓜(Citrullus Vulgaris)的子叶、下胚轴和茎尖进行分化培养.结果表明:以MS为基本培养基,附加BA0.4mg/L处理时,3d苗龄的子叶的分化频率最高,可达95.5%,12d
用紫外光(253.7nm)辐照1×10^-4mol·L^-1。的人血清白蛋白(HSA)和牛血清白蛋白(BSA),时间分别为0、1、2、3、4h后,用同样浓度的Ni(Ⅱ)溶液与辐照后的HSABSA作用,随时间扫描测定N
以松香为原料合成手性二醇5-苄氧甲基-5,9-二甲基-13β,14β-二羟基甲基-16-异丙基四环[10.2.2.01,10.04,9]十六烷-15-烯(6),制备用作NMR手性膦试剂,分别对单官能团手性底物(单
  分析了现有的处理空间实体约束的空间聚类算法,提出了一种处理空间实体约束的空间聚类算法SPOC.该算法对具有空间实体约束的空间对象进行聚类时,利用空间关系中的方向关系