论文部分内容阅读
随着信息化的不断发展,用户已经习惯通过互联网来获取信息。互联网给我们带来方便与快捷的同时,也带来了很多需要解决的问题。针对网络中信息筛选和检索问题,以及互联网的内容抄袭问题,本文结合了信息检索与文本挖掘技术,完成了基于网络环境下的中文查重系统的构建。本系统立足于网络环境下,从互联网中收集网页数据,作为文本查重的对比库。并且在对数据挖掘算法研究的基础上,借助遗传算法思想对算法做了优化之后,应用到了文本挖掘中。本文的研究内容可以分为以下几个方面:1)结合了网络信息检索系统与查重系统,构建了系统架构,把查重系统的不限制查询字数的特点与互联网中大规模的实时文档数据结合在一起,以此构建了系统。2)提出了相似性对比模型,明确完善了文档相似性对比的流程。模型中首先通过分词得到文本特征项,然后将把文本表示成空间向量的形式,通过计算向量夹角余弦的方式计算文本相似度。并且将对比过程分为了初步对比与详细对比两步,初步对比得到相似文档,然后对相似文档进行详细对比,可以处理一对多的相似情况。3)把数据挖掘算法应用到了文本领域,对数据库中的文本进行了文本挖掘。在经过了特征提取和文本表示后,运用文本挖掘算法和技术对文本进行预处理。然后经过特征提取、文本聚类和文本分类等文本挖掘操作,提取出文本中隐藏的特征,应用到文档的数据库存储、索引构建和查询检索当中去,从而整体提高改善系统性能。4)借助遗传算法的思想,和出色的空间搜索能力,对文本挖掘中使用的技术和算法进行了优化。在文本特征提取中,针对特征词中噪声的情况,借助遗传算法提取特征词,降低噪声影响。在文本聚类中,使用遗传算法优化初始聚类中心,提升聚类效果。在文本分类中,分别对语义挖掘和分类算法进行了优化。5)在对系统架构中各部分进行研究的基础上,对网络环境下的中文查重系统进行了实现。系统的设计重视用户体验,以简单实用为原则,设计了系统的交互部分。用户上传查询文档过程易于操作,返回页面通过颜色对不同相似度进行了区分标注,并附带了与文档相似的网页的URL地址,使显示结果完整而清晰。