中文微博的热点话题检测及趋势预测算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:edwinandwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博已成为信息时代优秀的主流自媒体平台,作为网民发布、获取信息的关键桥梁,微博话题与现实社会民情紧密相联。对微博热点事件的检测与分析是网络舆情监测工作的一项重点,如何在海量微博数据中提取有效的热点信息,以及如何正确跟踪关键热点信息,已经成为微博数据挖掘的研究重点。支撑一条微博参与到热点话题的关键因素是微博内容,因此以微博内容为出发点研究微博热点话题的抽取与预测工作是有效的。论文提出一种基于内容的中文微博热点话题检测与趋势预测算法。通过对微博的文本内容特征和传播特征的研究,针对其文本短、词频低、互动功能使用频繁等特点,结合LDA话题抽取结果设计出基于内容的热点话题检测算法(LDA driven Content-based Hot topic detection Algorithm,LDA-CHA);然后基于所检测的热点话题结果,构造基于话题内容参与状态的隐马尔科夫模型(Content Participation-based Hidden Markov Model,CPHMM),有效预测热点话题的短期热度趋势。论文主要工作及创新如下:(1)分析研究传统热点检测方法的特点,并结合微博自身影响力特征,论文提出基于内容的热点话题检测算法LDA-CHA,同时从语义和词频两个角度考虑微博的文本特征,综合微博转发、评论、点赞等直接传播特征,考察其线性关系并通过因子分析法改进微博热度计算公式,并结合语义权重和词频权重改进话题热度计算公式,有效地提升热点话题检测的准确率。(2)热点话题的热度趋势预测。通过对热点话题的微博内容参与率和话题热度状态的定义与识别,在LDA-CHA热点检测结果的基础之上,论文构造了用于热点话题趋势预测的隐马尔科夫模型CPHMM,通过训练能够学习出模型参数的局部最优解,经过评估训练所得的预测模型相对可靠,其计算复杂度与输入语料的规模亦在可接受范围内,预测结果具有可信性。(3)论文基于真实微博数据集,实验验证了热点话题检测结果的准确性,评估了热度趋势预测模型的可靠性,对比实验结果充分证明了论文模型的有效性。
其他文献
唐玄宗时期的“宜春院”为御前乐舞机构之一,其乐伎全为女性,主要伎艺为歌唱与舞蹈,是宫廷(即国家层面)燕飨娱乐性乐舞的最高水平。但其相关史料却零散而不成系统。通过耙梳、
户外大型展示牌是会展设计中的重要宣传方式之一,文章从户外大型展示牌的版面设计要求出发,从文字与字体、照片与图像、色彩的对比与调和、黄金比例与白银比例几个方面分析论
针对全局K-Medoids算法在处理大规模数据聚类分析时搜索效率低的问题,提出了基于竞争神经网络的全局K-Medoids聚类算法。由于神经网络算法对输入模式要求为数值向量,不适合处
城市快速轨道交通建设对任何一个城市来说都是巨大的经济负担,然而在适当的地段采用高架形式以节省资金,却常常不为人们所接受,主要在于其对城市环境、景观的影响方面。本文以广
本文通过宏观、中观、微观视角分析高校学生宿舍人际文化的现实特质及成因,从“家”“情”“礼”三重向度构建新时代宿舍人际文化发展新路径:推进空间建设与主体意识的统一,
1断奶仔猪腹泻的主要原因1.1应激因素仔猪断奶后,处于以一应激高度集中时期,如断奶、饥饿、转群、免疫、换料等,其中饥饿、换料应激最严重。大量累加应激,会引起仔猪暂时性营养不
面对电力系统自动化技术的迅速发展对自动化主站端的要求越来越高的现状,很多电网公司开始将D5000系统和PAS软件结合应用。这种应用提高了电力系统的经济效益和安全性,解决了人
数字线划图(DLG)是基础地理信息的核心数据之一,已广泛应用于防震减灾、国民决策、国防建设等各个行业中,DLG数据的质量直接影响着其数字产品在各个部门之中的应用。因此,为D
我国技术物化滞后的原因与对策山东大学经济系孙曰瑶,宋宪华技术物化是指技术由其信息价值状态转换为经济价值状态的过程。换言之,就是由技术发明者到生产者的过程。作为第~生产
近年来,水上交通险情由于其存在人员伤亡、财产损失和环境污染的风险受到国内外学者的关注。目前的研究主要集中在风险评价和事故致因分析,但是对于险情发展过程中应急干预的