基于主题模型的新闻热点研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:moete
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻是对新近发生事实的报道,报道了当下社会所发生的一切,研究新闻文本对于人们关注社会热点的研究、经济形势的研究、社会发展状态研究等领域都有着十分重要的作用,新闻报道也是人们获取社会信息的重要信息来源。近年来,随着网络平台的兴起以及自媒体大量的出现,使得网络新闻的数量呈爆炸式增长,面对大量错综复杂的新闻,人们想要从中获取新闻热点变得越来越困难,因此从海量数据中挖掘出新闻热点也成为了当下的一个研究重点。现有的许多主题模型都是针对文本本身,从新闻内容上进行主题挖掘,这样的方式也能获取不错的新闻主题,但是在面对网络新闻时,会忽略网络新闻的即时性、互动性等特点,所挖掘的主题也易受词频影响,导致挖掘的主题不够准确,因此这样的方式应用不适用于网络新闻的主题挖掘。本文利用网络新闻特点对传统主题模型进行改进来进行主题挖掘,网络新闻的即时性,互动性,使得网络新闻一经发布就会引起许多人评论发表自己看法,与他人一起参与讨论。因此,当评论人数越多,评论量越大即认为新闻越受关注,以此作为新闻热度的衡量,本文认为热度大的新闻更容易产生新闻热点,基于此观点,将热度大的新闻和一般新闻区别开,也能减少无关新闻的影响,能更准确的挖掘出当前新闻热点。本文首先会对新闻的热度进行衡量,计算出每篇新闻的热度,让数据集中不同新闻按热度区别开,减少无关信息的影响,然后通过TextRank算法对新闻文本中每个词进行重要度排序,计算出新闻中每个词的重要程度,然后结合新闻热度进行主题挖掘,这样可以改善词频带来的影响,并将网络新闻特点融入进去,产生一个关于热度的主题挖掘模型。考虑到传统的主题模型如LDA(Latent Dirichlet Allocation)模型是基于词袋模型,没有考虑词与词之间的关系,损失了上下文语义信息,目前常见的解决方法是把词向量与主题模型得到的主题分布相结合,然后对词向量进行平均求和来计算主题向量,但此类方法的词向量和主题分布不是在同一语义空间中训练得到,使得模型解释性较差,对此,本文提出了基于LF-LDA(Latent Feature-LDA)模型和Doc2vec模型的LFH-LDA模型来进行主题挖掘,通过结合Doc2vec模型训练词向量弥补了上下文语义的缺失,也利用了LF-LDA模型能够使词向量与LDA模型在同一模型中训练主题向量,减少了信息的损失,从而能更准确的挖掘出新闻热点。本文实验通过新浪新闻的真实新闻数据对本文提出的方法进行了验证,通过主题相似度、困惑度指标以及结果分析与传统LDA模型进行对比,经过实验验证了该方法的可行性与有效性,改进后的模型,具有更好的模型拟合度,提高了主题的质量。
其他文献
金刚石涂层硬质合金刀具既表现出金刚石高的硬度和耐磨性,也表现出硬质合金良好的抗冲击性和强韧性,是加工铝合金、纤维或陶瓷复合材料等材料的理想刀具,该刀具的界面结合性能对其使用具有重要影响。目前,国内外对金刚石涂层硬质合金刀具的研究主要通过宏观实验法,从微观原子尺度上对其界面结合性能的研究甚少。本文基于分子动力学与第一性原理,从微观原子尺度上对其界面结合性能进行模拟研究,本研究对揭示该涂层刀具的界面结
蜂蜜为我国传统的副食品,为保护消费者的权益、加强对市场蜂蜜质量和蜂蜜掺假作出准确判断,现代检测技术的研究具有主要的现实意义。本研究的主要内容和结果如下:改进液相色
背景食管癌是常见的消化系统恶性肿瘤之一,根据WHO统计,我国食管癌病死人数每年约20万,占世界的一半。肿瘤的转移是食管癌患者预后不良和死亡的主要原因。RIOK3是非典型丝/苏氨酸蛋白激酶RIO激酶(Right Open Reading Frame Kinase)家族成员之一。RIO激酶在细胞信号传导和肿瘤的发生和转移中发挥重要作用。目前发现RIOK3与乳腺癌、胰腺导管腺癌的发生进展关系密切,而RI
码的重量分布多年来一直是一个有意义的研究课题。近几十年来,许多学者已经构建并广泛研究了具有小重量的线性码;而循环码作为一类非常重要的线性码,因其具有良好的代数结构
七鳃鳗(Lampetra japonica)是最原始的脊椎动物之一,通常以宿主鱼类的血肉为食,推测其口腔腺分泌液可能含有阻止血液凝固的活性肽或蛋白质组分。前期研究结果表明七鳃鳗口腔
连续搅拌反应釜(Continuous stirred tank reactor,CSTR)是一种复杂的化学反应器,其因投资成本低、换热能力强和产品质量稳定等优点,广泛应用于石油化工、生物发酵、化学制药
本文分为三部分,主要有以下内容:第一章介绍了半群,完全正则半群,半格不可分半群的一些基本概念和引理以及本文中涉及的符号.第二章讨论了么半群的半格,并证明了一个半群是一些么半群的半格当且仅当它是这些幺半群的拟强半格.同时还讨论了半格不可分半群的一些基本性质及应用,并给出了左群的一种等价刻画.最后讨论了一类Rees矩阵半群的基本半格.第三章定义并刻画了具有正则半格分解的半群间的好同态.
柞树(栎属,Quercus)是柞蚕的主要饲料植物,同时在经济、生态、文化和科学研究上均具有重要价值。全世界柞树有450种,广泛分布于北半球的亚洲、欧洲、北美洲和非洲。柞树种间广泛存在的杂交造成了很多共同的种间形态特征和种内形态变异,使得该属的分类异常困难,植物学家对该属植物分类和进化的研究一刻都没有停歇过。叶绿体基因组序列具有较强的保守性等特点,是植物系统发育研究的理想标记。截至2020年3月,在
现有文献中对溶气原油发泡特性的讨论较少;对原油泡沫的稳定与消除特性缺乏深入、系统的研究。因此,本文针对以下方面进行实验研究:降压过程中原油泡沫稳定性影响因素;原油泡
背景外泌体是包含了复杂RNA和蛋白质的小膜泡,其中肿瘤细胞分泌的外泌体中的m RNA携带了大量肿瘤细胞遗传信息,因此对外泌体中特异性m RNA的分析,有望找到肿瘤诊断的新型分子标志物和治疗靶点。本研究通过高通量筛选与生物信息学方法探讨肝细胞癌(HCC)患者血清外泌体m RNA的表达特征及其潜在功能。目的探索HCC患者血清外泌体m RNA与正常人之间的生物学差异,为寻找新的HCC诊断分子标志物和治疗