面向新闻的话题发现和热度评估方法研究

来源 :东北师范大学 | 被引量 : 5次 | 上传用户:wwqq1200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术飞速发展,互联网广泛应用各个行业及领域,由于网络数据的迅速增长,对信息的收集和组织变得越来越困难,如何从大量的信息数据流中获得所需要的信息,成为亟待解决的问题。话题检测与跟踪(Topic Detection and Tracking,TDT)是解决该问题的关键技术,它旨在从新闻报道数据流发现话题,对已有话题进行后续追踪。话题发现是TDT中最重要的研究内容之一,旨在将相似新闻报道聚为类簇,从而得到话题,方便用户查询。因此,通过将话题作为粒度对信息数据地组织,便于人们了解一个事件的相关活动。本文在对话题检测技术及话题热度评估方法的国内外研究现状基础上,对其中的主要技术进行分析研究,本文的主要工作如下:第一,新闻文本数据预处理及文本表示模型的研究。本文结合新闻的特性,考虑新闻的标题内容和正文内容,以及新闻的增量特性,在特征词项权重计算中从词项在标题和正文中的位置信息及词项增量文档频率两方面进行优化。最后采用向量空间模型(vector space model,VSM)进行表示,将新闻文本数据转换为计算机可以识别的数据。第二,提出一种面向新闻的话题发现算法。针对经典Single-Pass算法进行了改进,从新闻的时间特性和动态特性两方面出发,在相似度计算中添加时间因素,同时聚类过程中也动态地更新话题的质心向量。本研究应用基于主题的网络爬虫构建的新闻等语料作为实验数据集,实验结果表明,改进的算法较经典算法在耗费代价和错检率上分别有所降低,验证了本算法的有效性和准确性。第三,提出一种话题热度的评估方法。本文综合媒体关注度和用户关注度两个方面,对聚类后得到的话题簇评估其热度值。通过话题热度分析,得到某一时间段内的网络热点话题及其排序,利用话题热度指数值来分析话题发展变化趋势。
其他文献
在中高压配电网中以模块化多电平换流器(MMC)作为静止同步补偿器(STATCOM)补偿负荷无功分量具有额定容量大、耐压等级高等优势。但MMC相间存在以负序二倍频为主的环流,会影响
从铁路局标准化工作概况及铁路局技术标准体系建设工作入手,介绍铁路局标准化工作的主要内容和主要特点,分析铁路局标准化工作面临的主要问题,提出完善铁路局标准化工作的主
目的探讨胫骨平台骨折外科治疗的思路和手术方法的选择。方法自2005年6月~2007年12月共收治胫骨平台骨折89例(陈旧性损伤不统计在内),男56例,女33例;闭合性损伤67例,开放性损伤22例
传统桃树冬季整形修剪是以疏枝、短截为主,回缩为辅,枝枝动剪。近年来各地推广简化修剪技术,在冬季修剪时采用长梢修剪,以疏枝为主,适度回缩,很少短截。因此,不少人抛弃了短