论文部分内容阅读
随着互联网的飞速发展,网络作为一种新的媒体,成为人们获取信息的重要渠道。面对海量的网络新闻信息,如何快速准确的获取到热点新闻话题,并对这些新闻信息进行有效地组织和分析,是当前信息处理领域研究的重点和热点。话题检测与追踪技术作为解决这一问题的关键技术,旨在从网络新闻媒体信息流中及时发现未知话题,并对已知话题进行后续跟踪。该技术能够以话题为主线,自动将分散的信息聚合起来,以方便人们从整体上了解一个事件的全部细节以及相关活动,在信息安全、金融证券、行业调研等诸多领域都具有广阔的应用空间和发展前景。本文总结了话题检测技术的国内外研究现状,分析了目前话题检测技术面临的问题并给出了本文的研究思路。在研究的过程中,对其中涉及到的关键技术做了详细的介绍,并结合本文的研究思路对在线话题检测技术进行了深入探讨,本文所做工作如下:第一,对话题模型的构建做了深入研究。本文结合网络新闻报道的特点,充分考虑报道的标题和正文这两部分内容,采用双向量对报道的标题和正文分别进行文本表示,充分突出了报道标题的重要性,提高了检测的效率;采用中心向量模型来构建话题模型,当话题内有新的报道加入时,则重新计算话题模型内每个特征的权重,从而动态的调整话题模型,达到了在线实时检测的目的。第二,提出了一种基于核心词簇的网络热点话题发现算法。本文针对single-pass聚类算法存在的不足,在聚类过程中,采用两层聚类策略,首先根据报道的标题向量进行微聚类,及时发现新出现的话题,并将达到预设条件的报道加入到相应话题的候选集中,然后对候选集里的报道进行二次聚类,通过话题热度分析,最终得到网络上某时间段内的热点话题。实验结果表明,本文的方法在识别性能和准确率上均有所提高。第三,提出了一种基于LDA的新闻话题子话题划分方法。本文针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,采用层次话题检测技术,应用LDA模型对新闻文档进行建模,引入主题特征词相关性分析,并采用KL距离和主题间特征词的相关性组合,计算话题之间相似度,实现子话题划分。实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率。