论文部分内容阅读
微博作为一种流行的信息交流平台,已经受到人们的广泛关注。为了增加微博数据的可读性,方便用户阅览微博消息,有关微博数据处理的研究也已经成为热点。不同于传统文本数据,微博消息文本有140字上限并且可以通过转发迅速传播,所以在处理微博数据时,往往需要以微博特有的性质改善微博消息文本长度较短的问题。微博聚类作为一种微博数据处理方法,其目的在于将不同主题类别的微博消息进行划分,使相同主题类别的微博消息汇聚到一起,便于读者寻找与自己兴趣相关的主题类别的微博。而微博聚类算法也已经有一些研究成果,其中改进的Single-pass聚类算法以LDA主题模型为文档表示模型,在传统的Single-pass聚类算法中加入话题中心与批量处理的思想,对微博消息集合进行聚类。本文提出的基于转发关系树的Single-pass微博聚类算法,在改进的Single-pass聚类算法中引入微博消息之间转发关系作为划分主题类型的影响因子,并以实验数据证明,通过利用转发关系,达到了提高聚类效果的目的。微博摘要,其主要目的是通过在微博数据中抽取摘要,使用户能够在海量的微博数据中迅速获取其所需信息。现有的微博摘要方法很多来自于传统的文本摘要方法,而在文本摘要问题中,对比文本摘要作为文本摘要的一种应用被提出,其目的是为新闻、产品等描述文档生成具有对比性质的摘要。在此基础上,推特对比话题摘要算法已经作为对比文本摘要在微博上的一种应用被提出。本文提出的基于话题集合的中文微博对比话题摘要生成算法,不同于推特对比话题摘要算法,是将话题集合进行对比并生成微博对比话题摘要。实验数据表明以话题集合为单位生成对比话题摘要可以改善单条微博消息信息量不足的缺点,提高了对比话题摘要的代表性。