新闻热点话题发现及趋势分析研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:chenquanchenwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络新闻逐渐成为网络民众最为关注的信息来源。网络舆情是不可忽视的力量,它需要监控与引导。对于热门话题发现与趋势分析的研究可以及时发现社会热点话题,分析话题的趋势,有利于把握舆情走向,从而进行正确引导,维护社会稳定。本文对新闻热点话题发现及趋势分析进行了研究,主要内容包括以下几个方面:1.针对新闻文本聚类中存在的文本语义缺失、聚类精度不高的问题提出了一种改进DPC(密度峰值聚类,Density Peak Clustering)的话题聚类方法。该方法首先对新闻文本进行向量化,经过文本预处理之后使用Word2Vec计算词向量,然后根据新闻标题与正文的词频等因素提取核心词,使用核心词的词向量来表示一篇新闻文本。接着,基于加权K近邻思想提出了一种改进的密度峰值算法,在局部密度计算、初始聚类中心自动选择、离群点识别以及样本分配策略方面进行改进。最后,在8个基准数据集以及搜狐新闻数据集上进行了实验,实验结果表明提出的算法能有效提高新闻话题发现的准确度。2.针对热点话题发现困难的问题,提出了基于复合关注度模型的热点话题发现算法。从媒体关注度和用户关注度两个方面度量话题的热度,并采用基于两者的复合关注度来识别热点话题。进一步地,引入“话题指数”来描绘热点话题的发展曲线,对热点话题的发展趋势进行分析。针对生命周期阶段识别准确率不高的问题,提出了一种基于DTW(动态时间规整,Dynamic Time Warping)的热点话题生命周期阶段识别算法。在真实的新闻数据集以及50个热点话题构造的训练集与测试集上进行实验,实验结果表明提出的方法能够准确的发现热点话题,且对热点话题生命周期各个阶段识别的准确率都能达到83%以上。3.综合上述研究成果,设计并实现了新闻热点话题发现及趋势分析系统,该系统核心模块主要包括新闻数据采集、新闻预处理、热点话题发现及趋势分析、WEB展示四个模块。该系统实现了各个模块,能够及时发现热点话题并对当前所处的生命周期阶段进行识别。
其他文献
特征选择是指从原始特征中选择出一些最有效特征以降低数据集维度的过程,其能够降低模型复杂度,减少过拟合的风险。近年来,关于特征选择的算法研究有很多,其中多核学习特征选
压电泵因精密控制、无电磁干扰的优点在泵领域内脱颖而出,无阀压电泵不但包括这些优点,同时因结构简单、无阀体和泵体之间的磨损和造价低等独特的特点在压电泵领域中备受欢迎
近年来,空气质量问题成为人们关注的焦点,PM2.5以其粒径小、吸附能力强、滞留时间长、能够远距离传输等特点给人类健康带来严重危害。近地面空气质量监测站布设时间较晚且数
近年来互联网和通信技术的发展极大地促进了大数据和数据挖掘技术的成熟。随机森林作为数据挖掘中常用的分类算法,被广泛应用到各个领域,支撑各研究机构、商业组织、医疗机构
近年来,阻变存储器由于其结构简单、操作速度快、功耗低、读写速度快等优点而受到人们的广泛关注,成为下一代非易失性存储器的潜在候选者。Ⅱ-Ⅵ族化合物半导体CdZnTe薄膜材料具有铁电性能,可以作为阻变存储器MIM结构中的阻变层,获得新型阻变存储器。本文提出阻变CdZnTe薄膜的制备与开关特性研究,旨在获得性能优异CdZnTe薄膜存储器件,探究其开关特性的机理。本文以物理气相沉积技术为基础,采用射频磁控
箱涵是水利,公路,铁路等工程施工建设中被广泛应用的常用建筑物,主要分为沟埋式和上埋式。箱涵由于结构设计缺乏较合理土压力计算理论导致了高填土箱涵结构不安全或过分保守
紫色土广泛分布于我国南方地区,受当地气候条件和耕作方式等的影响,紫色土覆盖区特别容易被侵蚀,导致土壤营养成分流失。生物炭作为土壤改良剂,不但有利于农田土壤养分固持,
知识图谱使互联网上海量杂乱的信息得以有效的组织和利用。在线百科中蕴含的大量知识以及结构化与半结构化内容使其成为知识图谱构建任务最常用的知识来源之一。然而现有基于在线百科构建的知识图谱大多仅从百科结构化和半结构化的内容中获取知识,忽视了非结构化的百科文章中蕴含的大量知识。从非结构化文本中抽取指定实体的预定义属性值是槽填充任务的研究内容。应用于知识获取的槽填充现有工作目前以关系分类方法为主,缺乏对非实
SO2是我国主要的大气污染物之一,主要来源于煤等化石燃料的燃烧。工程上采用多种技术减少SO2的排放,其中湿式氨法烟气脱硫技术被广泛应用。亚硫酸氢铵作为湿式氨法烟气脱硫工
危化品是推进工业发展的基石。由于危化品的易燃、易爆以及有毒等特性,任何与其使用相关的工业环节都会给人员和环境带来极大的风险。如何通过科学的风险管理方法,尽可能降低