基于Simhash算法的文本查重系统的设计与实现

来源 :湖南科技学院学报 | 被引量 : 0次 | 上传用户:xw511023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决文本数据的个性化查重问题,提出基于Simhash算法的文本查重的方法,设计并实现了系统原型.首先,阐述了文本相似度模型和计算算法;其次,根据需求规划设计了系统整体实现架构并详细描述其设计过程;再次,描述了查重算法和查重功能模块实现的详细流程;最后,对系统原型进行功能测试和算法相似度计算准确性测试.实验证明:在小规模文本文档样本中,系统能较好的实现文本相似度的计算和特征库的个性化定制,可集成并适用于小规模企业办公系统等平台的文本相似性查重环境.
其他文献
20世纪初,来美国的移民都十分节俭,尽量把每一分钱都存起来.佛兰普斯科·罗迪便成立了一家小银行,吸收移民存款.rn1915年,圣诞节前夕的一天,这家银行的出纳员外出吃午餐,只有罗迪一个人值班.突然,三个蒙面歹徒冲进来,把罗迪关进厕所,将银行里的22000美元席卷一空.储户听到这个消息后,都蜂拥而来,要求取出自己的钱.虽然罗迪尽了最大的努力兑付,但仍然不够,最后被迫清盘,银行宣告破产.250个储户共损失了18000美元.从此,罗迪家一贫如洗.他们失去了住宅、积蓄、存款和所有的一切,连家里一块稍好的红地毯也被
期刊
科学的评价体系是师范院校学科建设的重要保障.在师范认证的背景下,现有评价体系必须与师范专业认证理念有机融合,以动态发展的多元评价来衡量师范生核心能力的发展以及师范专业的建设.具体来说,以学生为中心,强训过程性多元评价;以产出为导向,引入外部评价;坚持评价的动态性,持续改进.由此,师范认证背景下评价路径的重新建构可以为师范专业的内涵建设、教师教育评价体系改革以及国内高校的“双一流”建设评价等提供借鉴.
打造“金课”是当前高等院校课程建设的重要内容.在教育部提出的五大“金课”目标中,线上线下混合式金课凸显了信息时代教育教学的新特点,是适合工程训练课程的一种形式.以建设工程训练课程“金课”为目标,分析了传统工程训练教学模式中存在的问题,从课程开展混合教学的意义出发,对课程的线上线下混合教学模式进行了探索研究,构建了“线上线下”教学体系,并对其进一步的优化和改进进行了探讨,可为高校实践类课程教学改革提供一定的参考.
“要”是现代汉语高性能、高频率基本语素,其词汇范畴到功能范畴的演化涉及语言多层面互动.制图式分析使得“要”由实词到虚词的语法化抽象途径直观化,有助于实现对其多义多功能在多个接口层面的识解.语料分析表明:“要”的语义、句法、情态分布层级遵循由低到高、由实到虚的渐进排列顺序,其决定因素是人的主观性.出于语用需求,言者采用迂回递进方式呈现“要”语用信息结构中的话题和焦点层级,以凸显所愿事件成真难度及效度.
张勉学是明嘉靖二十六年进士,曾任湖广荆岳道佥事,又任湖广参议,分守衡永道.他游宦湖南期间,在永州留下的榜书和诗文最多.文章主要考证张勉学在湖南的行迹,特别是在永州留下的榜书和诗刻及诗文.
这幅画色彩鲜艳,内容丰富,动物造型各不相同,童趣十足.画面中,有勤劳的蜜蜂,有美丽的蝴蝶,有聪明的蚂蚁……难能可贵的是,小作者将角落里的蜘蛛和草丛里的毛毛虫都刻画得十分可爱.
期刊
中国与“一带一路”沿线诸国建立的紧密联系既有经济上的,也有教育上的,尤其是吸引来华留学生方面.在中国学习的“一带一路”沿线国家留学生占比超过半数,他们同时担负着自己国家建设者和中国发展见证者的重任,关注他们的留学体验也就势必成为一项重要的考量.采用个案研究,对南京某大学一名盂加拉留学生进行深度访谈,对其留学体验进行探究,结果发现:中国政府的奖学金制度和重要他人的留学体验对研究参与者个体的留学体验有积极影响,而学校在课程设置和师资配备上的不足对其有消极影响.为此对留学生学习过程和今后的留学生招录工作可从完善
民国时期报刊杂志等媒体发展迅速,北宋周敦颐《爱莲说》的传播与接受达到了前所未有的状态,人们对其有新的内化接受.通过搜寻《爱莲说》在民国时的文献资料,共汇集28篇相关文献,对这些资料进行分门别类的整理归纳,可以分为教本、书跋与书后、艺文创作、仿作、游戏之作、注释与翻译等六种类型,且皆具有鲜明的时代特征.
随着科学技术的进步,数学基础课程的教学方法在不断探索和更新中.为培养学生独立自主的学习态度,强化学生的数学学习模式,针对我校高等数学课程教学中存在的问题,积极探索新的课程教学方法.通过部分班级数学实验课程的开设,尝试利用数学软件融入数学课程的教学,课程结束后对这些班级进行调查问卷的发放,从而了解并总结今后我校高等数学实验课程的改革方向,以期能为课程的考核评价提供参考.
为把握近35年国内湿式除尘研究集中领域及未来发展趋势,借助国内最权威的CNKI数据库的统计论文及相关资料,以Cite Space软件结合文献计量学知识为基础,采用聚类分析与统计处理等方法,统计并绘制出国内湿式除尘研究文献的发文数量趋势、发文机构趋势、发文关键词分析、高被引文献分析、专利情况分析,挖掘出湿式除尘研究的研究热点及整体发展趋势.研究表明:国内湿式除尘研究起步早,但发文量从2016年起呈指数型递增,这与国家层面的“蓝天行动保卫计划”和“健康中国”战略的推进相适应,而发文机构主要集中在高等学校和科研