基于深度学习的相似新闻检测系统研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:liuji19840718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的普及让网民可随时随地上网,发布和阅读各类信息。但互联网在给生活带来便利的同时,也成为了抄袭行为滋生的温床。互联网的数字版权作品有信息量大、易传播、低复制成本等特点,不仅抄袭成本低,而且人工判别的方式工作量极大。因此,用计算机辅助检测抄袭现象十分有必要。本文着重研究短篇新闻的相似度计算方法,旨在开发具有较高速度和较高准确率的相似新闻检测系统,提供实时的相似内容检索服务,辅助内容发布平台对内容的筛选和管理,加大对原创版权的保护与治理力度。主要工作内容如下:(1)提出一种基于有向图的无监督文本摘要抽取算法。模型中使用了预训练模型生成更优质的词向量,还融合了文章主题,使抽取的摘要能更大程度代表文本含义。针对难以直接检索的长文本,可以使用该模型对长文本进行压缩,捕捉文本中的重点信息,提高系统匹配长文本时的准确率。(2)提出一种基于孪生网络架构的短文本相似度计算模型。模型可以提炼文本中不同粒度的信息,使得模型可以学习到更多层次的信息,从而提升文本相似度计算任务的准确度。还使用了注意力机制,进一步提升模型效果。该模型具有较高的运行速度,可用于文本的粗召回,加速系统检索速度。(3)提出一种基于交互注意力的短文本相似度计算模型。模型在编码时,使用了交互注意力机制对两个输入进行交互。交互后,利用序列模型,在更高级的层面上对序列重新编码,使模型更综合地学习到全局信息。并增加了注意力机制,进一步提升提高模型效果。最后添加了融合层,使两段文本能更好地融合为一个序列,利于文本相似度计算。该模型拥有较高的准确率,用在文本的精细比较阶段。(4)最后综合本文的工作,搭建了一个具有较高速度和较高准确率的相似新闻检测系统。
其他文献
二维过渡金属硫族化合物(Transition metal dichalcogenides,TMDCs)因其层间范德瓦尔斯相互作用易被剥离为单层或少层,且TMDCs的带隙在1-2 e V的可见光到近红外范围内,使得关于TMDCs半导体的研究具有很高的应用价值。WS2作为TMDCs中带隙较大的材料,其光电子器件的量子效率依然很低,尤其是少层甚至体材料的量子效率更低。因此,研究WS2材料的载流子迁移率、
学位
当分子系统的温度降低时,分子德布罗意波长增大。当温度降低到某一特定值时,德布罗意波长将与平均分子间距相当,甚至更大。在这种情况下,量子效应开始发挥重要的作用,即分子不能用经典的粒子模型来描述[1,2]。另一方面,在分子中实现低温可以允许在更高精度上测量分子的基本性质,这是当前的一个前沿性研究,旨在发现超越现有标准模型的新物理[3,4]。此外,最近出现了使用冷分子作为量子比特[5]来进行量子计算的建
学位
在现实生活中,房屋布局图通常由建筑师根据专业建筑知识进行设计,建筑师需要与用户进行反复沟通以了解用户需求,这一过程耗费了双方大量的时间与精力。为此,自动房屋设计旨在根据用户需求输入来自动生成房屋布局图,以减少布局设计过程中的时间和人工成本,是视觉生成领域中的重要任务。自动房屋设计任务不仅需要考虑到设计房屋布局的几何合理性,还要考虑房屋布局的拓扑结构以满足用户需求。现有的自动房屋布局设计算法仍存在着
学位
本文研究基于骨架和视频的驾驶员行为识别,旨在自动识别车内的驾驶员行为。交通安全是一个重大的社会问题,其中驾驶员危险行为是导致事故发生的重要原因。准确识别驾驶员危险行为并及时预警,是减少交通事故数量的关键。如何自动、准确和高效地识别驾驶员行为是当前人工智能研究的热点。然而,驾驶员行为识别仍面临一些困难亟待解决,一方面,驾驶员动作幅度小,身体部位移动细微,难以提取有效的时序信息。另一方面,驾驶员行为相
学位
多原子分子与强飞秒激光相互作用的研究是强场超快原子分子物理的难点问题。由于多原子分子的多电子及多中心特性,从理论上精确描述其在强激光作用下发生的电离及解离等动力学过程面对很大挑战。另一方面,实现对气相多原子分子体系激发态的精确结构成像一直是强场超快领域的重要研究目标。针对这些难点问题,本论文从两方面展开了实验研究。首先,我们应用激光场致电子重散射诱导的库仑爆炸成像方法,研究了NO2分子的精确结构。
学位
负离子的几何结构和电子态迥异于中性原子分子,其额外电子是通过短程势与中性原子分子结合在一起,使得其在与激光的相互作用下出现了许多新奇的物理现象。结合高分辨的光电子成像技术,研究负离子与激光场的相互作用,能够准确测量负离子的解吸附能和激发态能级结构,对超快强激光场中的负离子光解吸附研究,有助于深入理解短程势下的强场物理过程,推动强场物理理论的发展。本论文自主设计并搭建了一套负离子光电子成像系统,测试
学位
传统的软件开发方式以开发团队人员的工作为主,为了令待开发的系统尽可能满足用户需求,开发人员的工作需要对用户需求进行分析以获得对系统的深刻理解。但在以传统的软件开发方式进行开发的一个项目的开发周期中,用户通常只参与前期的需求调研和需求分析,并且在这一阶段用户未必能清晰地表达出自己的需求,而后续的开发工作中开发人员的工作基于对前期需求分析的结果的理解,如果前期需求分析工作做得不透彻,在系统开发过程中就
学位
超短激光脉冲控制分子的转动是原子分子物理研究领域的热点问题。使用不同的泵浦脉冲能够产生各种有趣的转动现象,如单向旋转[1,2]、平面准直[3]、三维准直[4]和转动回声[5,6]等。转动动力学研究不仅为超冷分子和量子信息等研究领域提供了理论参考,同时在原子、分子光物理以及物理化学的基础研究中具有重要意义。我们通过两束延迟连续变化的泵浦脉冲激发分子体系产生转动准直回声,测量了一系列泵浦双脉冲延迟τ条
学位
操作系统是管理计算机软件和硬件资源的一个系统软件。随着业务场景的挖掘,越来越多的流程复杂的应用涌现出来。然而,复杂的应用往往涉及到多个跨领域、架构不一甚至事务隔离的服务。软硬件资源的调用方式不一,数据孤岛化,要整合多个应用,设计师往往要屈服于采取重构各系统的低效办法,当整合后的系统又遇到新的领域系统需要集成,将会对开发带来不小的压力。不同软件和硬件的灵活交互方式很难基于传统操作系统实现,不同服务提
学位
聚钨酸盐重液因其密度高,粘度低,无毒,无污染,密度可调节,易回收等特点而被广泛应用于各个领域的重介质密度分级中。尤其在选矿工作中,重液不仅可在工业选矿中分离低品位矿石和有害物质,对高品位矿石进行预先富集,提高选矿效率,而且可在实验中进行矿物、矿石分离,从而了解矿物、矿石的组成。虽然聚钨酸盐重液已有实际应用的实例,但是有关聚钨酸盐及其重液的制备未见报道。本文利用水溶液合成法,主要以钨酸和钨酸钠为原料
学位