基于混合文本集聚类的热点话题发现的研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:ray361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动网络和终端设备的快速发展,越来越多的人参与到网络建设着之中,随之而来的是大量的行为数据,比如网上购物之后的评价,看电影之后的影评等等。大数据时代下,通过对于这些大量的用户行为数据的分析挖掘,对于企业做出针对性的促销活动,对于政府准确的把握网络事件的发展方向以及及时做出积极引导有着十分重要的作用。文本聚类是一种重要的无监督数据挖掘方法,已经被广泛的应用于热点话题发现、事件追踪以及对文档摘要等领域。虽然现有的文本聚类已有很多相关的研究工作,但是都是针对于长文本或者短文本的研究,面对如今越来越复杂的长短文本交叉出现的网络环境中,利用传统的研究方法对混合文本集聚类,有以下问题,(1)对于长文本的向量表示方法用于短文本会产生稀疏表示,容易造成样本之间语义鸿沟,语义表示不准确,从而影响下游的聚类准确度。(2)传统研究方法通常提取局部特征信息,不具有全局性,或者相反的提取了文本主题,而忽略了局部的特征,导致文本信息表示不准确。(3)聚类算法关于簇心的初始化问题依然存在,不同的初始化结果对于聚类准确度有重要影响。(4)传统聚类算法都是对文本表示进行特征提取,然后利用聚类算法直接得出聚类结果,这样只能单方向的进行输出,不利于聚类中心随着数据分布的变化而调整。针对以上存在的问题,本文提出以下方法,可以在一定程度上缓解以上问题对于混合文本集聚类的影响。1、提出从词嵌入、语序以及语义嵌入的细粒度方面进行向量表示和从主题嵌入的全局粒度进行向量表示相结合,提高对于混合文本集的表征能力。利用自编码网络Auto Encoder中编码器部分Encoder进行特征抽取,然后利用解码器Decoder对于上述得到的特征进行重建,通过这种自监督训练的方式,训练Encoder模块,提取利于下游文本聚类的高阶特征向量。2、提出“粗”和“细”两阶段聚类方法,由于聚类算法对于初始聚类中心和簇的个数选择十分敏感,本文采用“粗”聚类初始化“细”聚类。其中“粗”聚类阶段采用Canopy算法计算簇中心和簇的个数,将聚类结果作为下一阶段“细”聚类的初始化值,然后利用K-means聚类算法对样本进行二次聚类。3、联合特征提取器Encoder和聚类结果一起微调,根据聚类的结果,反向调整特征抽取模块和聚类模块的参数,提高聚类得到的样本分布和原样本分布的一致性,从而提高聚类的准确度。在五个实验数据集上的结果显示,本文所提出的方法较好的解决了混合文本集出现的文本表征问题以及聚类过程和特征提取过程割裂的状况,从而提高了聚类的准确度。同时本文对于微博热点话题进行爬虫获取了6个热点话题的文本数据,并采用今日头条新闻数据集训练文本表示模块以及自编码网络中的特征提取器Encoder,然后利用训练好的模型对上述的热点话题进行检测。实验表明,本文提出的文本表示方法和聚类方法在话题检测上的准确率、召回率以及F1值都比对比实验有所提升。
其他文献
近年来,我国臭氧污染日渐加重,臭氧浓度超标的天数和地区逐渐增多,挥发性有机物(Volatile Organic Compounds,VOCs)作为臭氧形成的主要前体物,其大量排放和造成的危害引起了越来越多关注。炼油项目在VOCs人为排放源中占比较大,但在现实中,由于其排放量大且点源复杂,治理工程难度较大且效益不明显,企业治理动力不足,所以对炼油项目VOCs治理进行经济和环境效益的深入研究具有重要意
学位
传感技术应用需求的不断提高,推动传感器向高集成化和高精度等方向进步。水平剪切声表面波(Shear Horizontal Surface Acoustic Wave,SH-SAW)微力传感器因具有高集成度、高精度、可抗液体环境干扰等优点而适用于物理力学测量、环境检测以及医学检验等场合。目前,随着现代工业中对传感器测量精度和抗干扰性要求的提高,传统SH-SAW微力传感器无法完全满足工业和生活中微型化、
学位
净能源,即能源产出与能源投入之差,是剔除能源系统运行过程中消耗的能源投入后社会能够使用的最终能源。在碳排放约束下,中国正在积极推进能源结构转型,然而由于各类能源的成本存在差异,能源结构的调整必然会改变能源系统的净能源供应能力,并影响经济增长。本文针对中国能源系统进行研究,首先对过去的净能源供应情况进行测算分析,接着考虑碳排放约束,对不同能源结构情景下的净能源变动及其对经济的影响情况进行模拟,并提出
学位
随着人们对安防领域的日益关注以及科技水平的不断发展,监控摄像头被越来越多的应用在人们日常工作和生活当中。由于这些摄像头大多为24小时不间断工作,因此产生了大量的监控视频数据,而对这些监控视频的浏览和存储将耗费大量的人力和物力。视频摘要技术可以消除视频中冗余的空白信息,生成仅含有原视频关键内容信息且长度远小于原视频的摘要视频,在方便浏览的同时节省了存储空间,因此被越来越多的研究人员所关注。视频摘要生
学位
随着图像传感器技术的发展,图像融合技术应用领域也越来越广泛。由于其工作原理的性质,单个传感器捕获的图像信息不足而造成图像不完整、模糊不清等问题,而图像融合就是结合多个传感器的工作特性,对于同一目标场景获得的多幅图像根据其特性进行优势互补,剔除冗余信息结合为一副对该场景描述更清晰、更完整的图像。在图像融合范围内红外可见光图像融合也是占据不小地位,在目标检测、军事、安防监控、资源探测等领域有着重要的应
学位
资源耗竭理论认为,当代人开发利用石油资源必然会牺牲后代人利益,为了维系代际公平,应在开发中提取耗竭补偿。现有耗竭补偿测算方法以石油效用持续不变为前提,忽略了替代能源对石油价值及其耗竭补偿的影响,因而应在能源替代背景下对其进行修正,论文将以此为重点开展研究。除耗竭补偿外,石油开发对生态环境影响及其补偿也受到了越来越多的关注,而目前的定量研究较少,还不能为政策制定提供有力支撑,因此也将其纳入研究范围。
学位
通过对清洁取暖政策的实施现状以及“2+26”试点城市财政投入产出的研究,在SBM(Slack Based Measure)模型的基础上,定量计算了3年各试点城市清洁取暖政策的财政支出效率。与此同时,对各试点城市财政资金的使用效率进行了异质性分析,探讨清洁取暖政策实施主体的利弊,总结分析“退补”趋势下清洁能源供暖的实施路径。最后,通过计量模型的建立,探究了显著影响该项政策财政支出效率的因素。以上研究
学位
众所周知,在经济系统、飞行控制系统、机器人操作系统等实际应用中,系统可能会受到组件出现的故障,外部环境的干扰以及互相关联的子系统耦合变化等因素的影响,导致系统的参数或者结构出现突然的变化。为了能够更好地对这种现象进行表述,通常使用混杂动态系统进行建模,其中马尔可夫跳跃系统最为常见,其跳变方式是以随机的形式从一种模式切换到另一种模式。因此,研究马尔可夫跳跃系统的动力学行为具有重要意义。另一方面,由于
学位
我国石油对外依存度已超过70%,在常规石油资源增长潜力有限的情况下,非常规石油的可持续开发对保障石油安全意义重大。油页岩是重要的非常规石油资源,但由于其开发效益常处于或低于经济边界,动用程度不足十分之一。除了财税政策之外,合理的资源类税费体系也有利于油页岩产业的可持续发展。基于国内外现行矿产资源税费体系的比较研究认为,可持续发展视角的资源类税费体系应具备三点:一是税负体现资源品级差异,实现以优补劣
学位
智能手机等移动设备广泛应用于人们日常的活动中,存入其中的个人帐户等隐私信息的泄露将会给用户造成巨大损失。身份认证机制的目的是辨识假冒用户,并阻止其对设备未经授权的访问。隐式认证是利用用户行为和习惯进行身份认证,因其便利性、用户友好性和安全性成为智能移动设备认证领域的研究新热点。然而,已有研究通常利用设计复杂算法、提取高维特征、提升模型复杂度和与穿戴设备相结合等方法,来提升模型准确率与认证性能。这不
学位