论文部分内容阅读
近几十年来,随着互联网技术的普及和发展,大量新闻报道涌现到互联网上,面对大量的新闻信息,用户需要花很长时间才能了解新闻热点话题,因此如何帮助用户快速的了解新闻热点话题已成为了急需解决的问题。本文提出了基于语义特征的新闻热点检测方法和基于关键文档和LDA模型的话题演化方法,具体包括如下几点:1)提出了基于语义特征的新闻热点检测方法。此方法充分考虑到新闻标题比新闻正文更能表达新闻主旨,本文分别对一篇新闻标题和新闻正文使用LDA(Latent Dirichlet Allocation)和BTM(Bi-term Topic Model)提取其语义特征,其中语义特征包括文档-主题和主题-单词概率分布,然后通过VSM(Vector Space Model)表示此篇文档,根据语义特征调整VSM模型特征项权重,随后使用本文提出的改进的聚类算法进行聚类,通过聚类中心表示话题,最后使用本文提出的新闻热度计算公式,计算出在指定时间段上的新闻热度,最后利用计算出来的热度值排序得到指定时间段内热点新闻排行榜。2)提出了基于关键文档和LDA模型的话题演化方法。该方法首先利用LDA模型对文档集合进行训练,得到文档集合的主题-文档和主题-单词概率分布,随后根据文档集合的时间信息,将文档集合划分为不同的时间段,分别在各个时间段内,使用LDA模型提取文档集合的文档-主题和主题-单词概率分布,然后根据关键文档定义提取每个时间段内的关键文档,通过文档集合的文档-主题概率分布表示每个时间段的关键文档,然后计算相邻时间段内关键文档的相似度,通过关键文档的相似度,将不同时间段内的相同话题关联起来,最后得到话题的演化过程。3)实现了互联网新闻热点话题检测和追踪系统。本系统遵循了 MVC设计模式,主要实现了新闻热点展示、新闻热点追踪以及新闻热点话题演化功能,各个功能模块相互独立,以便系统进行更新与扩展。