网络环境下的中文查重系统的研究与实现

来源 :浙江理工大学 | 被引量 : 2次 | 上传用户:shengyan1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的不断发展,用户已经习惯通过互联网来获取信息。互联网给我们带来方便与快捷的同时,也带来了很多需要解决的问题。针对网络中信息筛选和检索问题,以及互联网的内容抄袭问题,本文结合了信息检索与文本挖掘技术,完成了基于网络环境下的中文查重系统的构建。本系统立足于网络环境下,从互联网中收集网页数据,作为文本查重的对比库。并且在对数据挖掘算法研究的基础上,借助遗传算法思想对算法做了优化之后,应用到了文本挖掘中。本文的研究内容可以分为以下几个方面:1)结合了网络信息检索系统与查重系统,构建了系统架构,把查重系统的不限制查询字数的特点与互联网中大规模的实时文档数据结合在一起,以此构建了系统。2)提出了相似性对比模型,明确完善了文档相似性对比的流程。模型中首先通过分词得到文本特征项,然后将把文本表示成空间向量的形式,通过计算向量夹角余弦的方式计算文本相似度。并且将对比过程分为了初步对比与详细对比两步,初步对比得到相似文档,然后对相似文档进行详细对比,可以处理一对多的相似情况。3)把数据挖掘算法应用到了文本领域,对数据库中的文本进行了文本挖掘。在经过了特征提取和文本表示后,运用文本挖掘算法和技术对文本进行预处理。然后经过特征提取、文本聚类和文本分类等文本挖掘操作,提取出文本中隐藏的特征,应用到文档的数据库存储、索引构建和查询检索当中去,从而整体提高改善系统性能。4)借助遗传算法的思想,和出色的空间搜索能力,对文本挖掘中使用的技术和算法进行了优化。在文本特征提取中,针对特征词中噪声的情况,借助遗传算法提取特征词,降低噪声影响。在文本聚类中,使用遗传算法优化初始聚类中心,提升聚类效果。在文本分类中,分别对语义挖掘和分类算法进行了优化。5)在对系统架构中各部分进行研究的基础上,对网络环境下的中文查重系统进行了实现。系统的设计重视用户体验,以简单实用为原则,设计了系统的交互部分。用户上传查询文档过程易于操作,返回页面通过颜色对不同相似度进行了区分标注,并附带了与文档相似的网页的URL地址,使显示结果完整而清晰。
其他文献
<正>在积极实施英语课程改革的现阶段,英语教师仅要求学生多练,而不具体讲明如何多练;只讲究练习的量多,不注重练习的质高,已经不能满足高三英语教学实际的要求。因此,针对高
小学生心理健康教育是根据小学生生理、心理发展的规律和特点,运用心理学的教育方法和手段,培养小学生良好的心理素质,促进小学生身心全面和谐地发展和整体素质全面提高的教
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
给出了向量组或映射判定正独立性的3个充要条件和若干个充分条件,讨论了非凸优化中的正独立映射的性质,通过实例给出了构造方法。
针对传统人工打分计分方式效率低的缺点,设计了基于无线通信的电子打分计分系统。系统分为打分器、计分器和上位机3部分,打分器通过人机接口实现打分、显示和存储分数,并能将
中卫深井盆地为一新发现含煤盆地,是研究我国西北地区中侏罗世地层的重要地区之一。因以往本区地质基础资料较少,对地层划分较粗,本文深入研究深井盆地沉积层的岩性、岩相特
合理地设计化学成分,适度地提高硅碳比,选用稀土镁硅铁与硅铁的混合孕育是稳定生产高牌号机床灰铸铁件的成功经验。该经验可操作性强,生产技术难度小,质量稳定,成本低廉。该经验对