论文部分内容阅读
随着互联网的快速发展,社交网络由于其交互性、自由性和开放性受到越来越多的人的青睐。自从2006年,世界首款微博客(以下简称微博)服务网站—Twitter由美国的埃文-威廉姆斯公司Obvious推出以来,微博服务蒸蒸日上,堪称蓬勃发展。微博不同于传统的新闻、博客,其内容简短,限制在140字以内。但是,用户除了可以在自己的微博内容里加入简短的文本以外,还可以加入图片、视频、音频和其他链接等。这种自由、开放的传播方式,受到了广大用户的欢迎和关注,同时,微博服务也在全球各地快速传播,掀起了一股微博服务的热潮。由于微博的自由性、交互性和开放性,人们可以随时随地分享自己的所见所闻或发表自己的情感态度。随着微博用户的急剧增长,微博信息量日益剧增,一些突发事件往往也容易在微博平台显现出来。因此,现阶段微博话题检测研究正受到研究学者的关注,正逐渐成为研究热点。但是,人们有时更关注某一事件的发展状况,因此微博话题追踪显得尤为重要。为了充分利用微博的时间敏感特性,及时检测和追踪微博热点话题,本文进行了如下研究:1.针对微博信息量大而时间敏感性强的特点,提出基于速度增长的微博话题发现方法本文提出了基于速度增长的微博热点话题发现方法。首先把经过预处理的微博按等数量窗口划分,统计每个窗口内各词语的词频,并表示成时间二元组序列;然后通过计算每相邻两个窗口的个词语的增长斜率来发现增长速度快的词语;然后通过计算与该词语有关的用户的增长速度和微博条数的增长速度来确定该词语是否是热点主题词;最后通过热点主题词聚类产生热点话题。结果表明,该方法对新话题有很强的的挖掘能力。2.针对话题追踪中的话题漂移问题,提出了基于时间发展的微博自适应话题追踪方法该方法首先针对微博追踪中的数据稀疏问题,利用基于相关性检索的特征词扩展方法来扩展特征词;然后针对特征词权重不变容易导致召回率低的问题,利用基于时间衰减的特征词权重调整策略对特征词权重进行适当的衰减;最后针对话题模板静态不变问题,提出了基于双重过滤技术的话题模板调整方法,把相关报道且重要性得分高的报道用来更新话题模板。实验表明该方法在一定程度上提高了追踪效率。3.设计并实现了基于时间发展的微博自适应话题追踪算法的网络舆情监测系统将本文提出的自适应话题追踪方法应用于网络舆情监测系统中的话题追踪模块的话题模板调整,利用重要性得分高的微博条目更新话题模板,使系统有更高的召回率和准确率,满足用户的需求。