论文部分内容阅读
信息技术飞速发展,互联网广泛应用各个行业及领域,由于网络数据的迅速增长,对信息的收集和组织变得越来越困难,如何从大量的信息数据流中获得所需要的信息,成为亟待解决的问题。话题检测与跟踪(Topic Detection and Tracking,TDT)是解决该问题的关键技术,它旨在从新闻报道数据流发现话题,对已有话题进行后续追踪。话题发现是TDT中最重要的研究内容之一,旨在将相似新闻报道聚为类簇,从而得到话题,方便用户查询。因此,通过将话题作为粒度对信息数据地组织,便于人们了解一个事件的相关活动。本文在对话题检测技术及话题热度评估方法的国内外研究现状基础上,对其中的主要技术进行分析研究,本文的主要工作如下:第一,新闻文本数据预处理及文本表示模型的研究。本文结合新闻的特性,考虑新闻的标题内容和正文内容,以及新闻的增量特性,在特征词项权重计算中从词项在标题和正文中的位置信息及词项增量文档频率两方面进行优化。最后采用向量空间模型(vector space model,VSM)进行表示,将新闻文本数据转换为计算机可以识别的数据。第二,提出一种面向新闻的话题发现算法。针对经典Single-Pass算法进行了改进,从新闻的时间特性和动态特性两方面出发,在相似度计算中添加时间因素,同时聚类过程中也动态地更新话题的质心向量。本研究应用基于主题的网络爬虫构建的新闻等语料作为实验数据集,实验结果表明,改进的算法较经典算法在耗费代价和错检率上分别有所降低,验证了本算法的有效性和准确性。第三,提出一种话题热度的评估方法。本文综合媒体关注度和用户关注度两个方面,对聚类后得到的话题簇评估其热度值。通过话题热度分析,得到某一时间段内的网络热点话题及其排序,利用话题热度指数值来分析话题发展变化趋势。