面向多媒体问答的新闻热点分析及其呈现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:typhoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,随着互联网技术的普及和发展,大量新闻报道涌现到互联网上,面对大量的新闻信息,用户需要花很长时间才能了解新闻热点话题,因此如何帮助用户快速的了解新闻热点话题已成为了急需解决的问题。本文提出了基于语义特征的新闻热点检测方法和基于关键文档和LDA模型的话题演化方法,具体包括如下几点:1)提出了基于语义特征的新闻热点检测方法。此方法充分考虑到新闻标题比新闻正文更能表达新闻主旨,本文分别对一篇新闻标题和新闻正文使用LDA(Latent Dirichlet Allocation)和BTM(Bi-term Topic Model)提取其语义特征,其中语义特征包括文档-主题和主题-单词概率分布,然后通过VSM(Vector Space Model)表示此篇文档,根据语义特征调整VSM模型特征项权重,随后使用本文提出的改进的聚类算法进行聚类,通过聚类中心表示话题,最后使用本文提出的新闻热度计算公式,计算出在指定时间段上的新闻热度,最后利用计算出来的热度值排序得到指定时间段内热点新闻排行榜。2)提出了基于关键文档和LDA模型的话题演化方法。该方法首先利用LDA模型对文档集合进行训练,得到文档集合的主题-文档和主题-单词概率分布,随后根据文档集合的时间信息,将文档集合划分为不同的时间段,分别在各个时间段内,使用LDA模型提取文档集合的文档-主题和主题-单词概率分布,然后根据关键文档定义提取每个时间段内的关键文档,通过文档集合的文档-主题概率分布表示每个时间段的关键文档,然后计算相邻时间段内关键文档的相似度,通过关键文档的相似度,将不同时间段内的相同话题关联起来,最后得到话题的演化过程。3)实现了互联网新闻热点话题检测和追踪系统。本系统遵循了 MVC设计模式,主要实现了新闻热点展示、新闻热点追踪以及新闻热点话题演化功能,各个功能模块相互独立,以便系统进行更新与扩展。
其他文献
基于过往研究成果和管理实践可知,工作设计(job design)对于组织实施有效的管理具有十分重要的作用。过往一般意义上的工作设计以工作为中心,由管理者来确定员工在工作中所需
<正> 史学月刊1957年七月号發表了“論官渡之战”一文,作者梁养吾对东汉末期曹操和袁紹开展的那次規模浩大的官渡战役进行了分析,总結了双方胜敗的原因叶镣暌院?除引起对該
进入21世纪以来,伴随着经济的迅猛发展,能源短缺已经成为世界需要共同面对的严峻难题。太阳能作为一种清洁的新能源,因其取之不尽和清洁无污染受到了大众的广泛关注,是现在各
电视综艺选秀节目自2005年出现在公众眼前,并逐渐成为电视综艺节目重要的一个类别。偶像养成类节目作为综艺选秀节目的演化,在近年来不断涌现。《偶像练习生》作为新媒体环境
<正> 我在“新史学通讯”一九五五年第十二期会以“中国封建社会中资本主义萌芽问题之研究”为题,大胆的断言唐宋时期即已出现了资本主义萌芽。现在为了进一步充实它,再举出
反思性实践是当前教师专业化发展的一种内在要求 ,教师反思性实践的因素和环节很多 ,以“反思”、“调控”为特征的教学监控能力是教师反思性实践的重要维度。笔者从教学监控
目的探讨2型糖尿病常见慢性并发症的中医辨证特点。方法采用5 级记分法对124 例2 型糖尿病伴常见慢性并发症患者进行临床症状评分,按气虚、阴虚、阳虚、血瘀、痰湿5个证候类
晚清壮族诗人黎申产任宁江书院山长十二年,同治年间署光禄寺正六品衔,学界对此多以讹传讹。他的诗集《妆台百咏》国内仅存残本,在越南却保存完好,并产生了两部续仿之作。黎申
本项目通过对污泥的物理特性和干化特性进行研究的基础上,对脱水污泥进行在常温条件下的高效干化实验,对深圳市城市污水厂污泥的资源化和城市环境的优化有着重要的理论和现实