面向网络舆情的热点挖掘技术研究

来源 :河北建筑工程学院 | 被引量 : 1次 | 上传用户:winwo408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的快速发展,社交网络平台成为人们交流工作、发表意见、联络感情的第二世界。人们在其中不仅作为信息的接收者,而且可以通过平台机制将这些信息进行实时传播和快速扩散。这个过程让社交网络平台的信息能够在短时间内获得巨大的关注量和影响力,甚至衍生为一种现象级的新闻事件。其中蕴含的舆情数据的作用至关重要,堪称民情民意的风向标。因此,网络舆情的研究受到越来越多人的关注和重视。为了准确地在大量网络舆情数据中发现热点并分析其热度,本文针对微博舆情数据的热点挖掘工作进行研究,主要工作内容包括:第一,针对传统聚类算法K-means++在初始点优化方面的缺陷,结合Word2Vec模型提出一种针对网络舆情数据的热点发现改进算法—WPK-means++(Word to vector Penalty factor K-means++)。该算法引入惩罚因子来弥补Kmeans++应用于热点话题分布散乱的短文本数据受离群点影响的问题,减少文本聚类算法初始聚类中心的无效覆盖范围,并通过对比实验的分析验证了该算法最终聚类结果的准确率和效率。在此基础上对热点发现与跟踪模型的整体架构进行设计,给出了设计思路和架构图,利用中文分词、去除停用词等数据预处理手段,对原始数据集进行具有针对性的预处理工作,并且利用词嵌入模型对预处理的结果集进行文本建模。最终以微博舆情数据集为语料进行热点发现实验分析。第二,针对微博舆情数据不仅受数量的影响同时也要体现关联性的特点,首先对候选关键词的权重计算进行优化,采用词频、词的逆文档频率以及互信息相结合来计算候选关键词的综合权重,既考虑关键词本身对权重的影响,也考虑了词与词、词与文档之间的关联程度,赋予网络文本关键词更准确的权重值。第三,鉴于微博数据传播机制的特点,微博话题的热度值会受到转发量、评论数、点赞次数以及发表时间的影响,为此引入微博舆情数据关键词的热度影响因子来提高针对微博舆情数据热度计算的准确率。并在此基础上提出一种基于综合权重计算和热度影响因子的改进算法—CWHIF-TR(Comprehensive Weight Heat Influence Factor Text Rank)。构建针对微博文本的热度分析模型,完成热点关键词热度分析实验和摘要句热度分析实验,为热度计算的相关研究提供思路。
其他文献
随着工业的快速发展,大量的工业废水随之产生,严重污染了水体环境。其中,重金属废水和印染废水是工业废水中较难处理的两种废水,重金属具有毒性高、难降解和累积性等特点,染料具有结构稳定、色度高、有机物含量高等特点,使得重金属废水和染料废水的处理困难,对人体健康和生态环境构成潜在威胁。因此,水体中的重金属污染和染料污染已经成为我国亟待解决的环境问题,而寻找安全环保的处理方法解决重金属废水和染料废水的污染具
学位
莜面面粉的纯度是决定其品质的关键指标,市面上所售莜面面粉不同程度会掺入玉米淀粉或者土豆淀粉,调节莜面面粉的成本,如何有效快速鉴别莜面掺假还没有很好的解决办法。近红外光谱技术是通过对物质的光谱特性进行定量、定性分析,并且具有非接触、多组分预测、成本低廉等优点的一项技术。在本研究中,将近红外光谱技术应用在莜面等级和莜面掺假的判别分析中,提供一种无损检测方法。以莜面、玉米淀粉和土豆淀粉作为研究对象,通过
学位
无梁楼盖是一种没有梁构件的板柱结构,它的楼面荷载可以由柱直接传给基础,传力路径简捷,在净空方面可以达到较高的利用率,在厂房类多层工业综合建筑与书库、商场类的民用建筑得到了较为广泛的应用。但是由于施工期间的不规范操作等原因,近年来发生了许多地下室无梁楼盖局部垮塌事故。由于对无梁楼盖施工期超载破坏的研究较少,为了指导工程,所以本文利用有限元软件建立无梁楼盖有限元模型,以施工期间不同施工工况下的荷载对无
学位
随着城镇化的迅猛发展,污水排放量与日俱增并逐渐成为制约城镇环境、经济发展的重要因素。污水处理厂的高效运行是提高水源涵养能力、缓解水资源匮乏局势的必要保障。但实际上污水处理厂的运行条件变化无常,运行效果不佳会导致出水环境恶化造成二次污染。所以如何提高污水处理厂在实际运行中的可靠性,增强污水处理厂处理性能成为了当下研究的热点。本文以崇礼区城区污水处理厂为研究对象,结合2021全年水质情况厘清关键污染物
学位
随着机器学习的快速发展,深度度量学习逐渐称为了当下的研究热点。如何准确的度量物体间的相似度一直都是深度度量学习领域的最关键性问题之一。流行的相似度度量装置依赖于成对或成三元组的孪生网络模型,其相似度度量能力主要受限于对图像特征信息的获取能力,目前大部分孪生网络结构以卷积神经网络为主干网络。但是随着相似度度量任务精度需求的逐渐提高,卷积神经网络的一些缺陷逐渐暴露,例如卷积中池化操作的信息丢失问题。2
学位
目前大部分磁混凝试验研究中,对磁场的利用都仅仅停留在利用磁场对磁粉的磁性进行强化或是在磁粉的分离回收过程中通过磁力的吸引将磁粉从剩余污泥中分离出来。本研究中将磁场利用到磁混凝反应的过程当中,以探究外置磁场的存在对磁混凝效果的影响。主要分为两个阶段考察,分别是在磁混凝的搅拌阶段添加外置磁场和在絮凝体的沉降过程中添加外置磁场,通过以浊度的去除率为主要参考标准,对比外置磁场对磁混凝处理的效果的影响。本文
学位
受益于科学技术的飞速发展,全球每时每刻都会产出海量的文本数据。这些文本信息中蕴含着极为丰富的商业价值,如何高效地挖掘当中有价值的隐含信息,一直是研究者们关注的热点问题。面对海量的文本资源,人工处理效率低且成本高,并不可取。自动分类技术因此应运而生,并成为当今社会管理海量的文本数据不可或缺的工具。短文本分类技术是文本数据处理领域的一项关键任务。与长文本不同,短文本自身内容较少,书写形式多样,具有特征
学位
近年来,中国综合交通网络规模与品质实现历史性飞跃,其中超半数的工程位于寒冷地区。为了符合工程对路基填料量和稳定性的需求,不仅需要将原道路路基土进行改良,而且会面临一个棘手的问题—冻胀与融沉。冀北部山区夏季极端气温可达40℃,冬季最低气温低至-30℃,该地区的道路路基常年受冻结和融化反复作用,特别是早春昼夜温差大,一些路段路基一天就会经历一次冻融循环,对道路的寿命及交通安全造成影响。除此之外,循环往
学位
随着我国经济和科技的不断发展,我国的集中供暖事业取得了较大的发展。城镇新建建筑不断增加,供热系统规模不断扩大,管网故障问题也引起了供热企业的重视。供热管网故障是由于多种原因造成的,且在实际工程中有故障位置很难迅速找到,尤其是运行多年的老旧管网,供热管网泄漏故障频发。管网故障会导致热用户供热效果下降,同时也会造成供热系统运行成本增加。本文在前期供热管网仿真研究基础上,建立供热管网泄漏节点压力数学模型
学位
二十世纪中期工业化、城市化快速发展,西方发达国家乡村经历了空间布局和社会经济的转型重构。过去三十年间,我国发达地区的诸多村庄也陆续完成了产业和用地的转型发展。近年来,我国产业结构调整升级、乡村振兴与新型城镇化战略持续推进、新版土地管理法和国土空间规划的施行,以及资金、政策不断向乡村地区倾斜,我国欠发达地区村庄开始步入经济社会的转型发展时期。村庄处于不同社会和经济发展时期,内部用地在空间上呈现出不同
学位