论文部分内容阅读
随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域。其中,基于语义的文本主题分析在近年来成为信息检索和文本挖掘的热点研究方向,其主要任务是根据文本中已知的“文档-单词”分布生成“文档-主题”和“主题-单词”两个分布,从而提取出文档中隐含的主题信息。主题分析模型在文本分类聚类、信息组织与管理、热点话题挖掘等领域都有着广泛的应用。近年来,随着Web2.0的兴起,社会网络,比如人人网、Facebook、Twitter、新浪微博等非常流行,逐渐成为人与人联系的重要方式。社交网络中80%以上的数据为自然语言文本,海量的用户产生数据(UGC),充斥着网络空间。为了使用户能更快捷,更方便地了解热门话题并参与到当前话题的讨论之中,对微博热点话题的挖据显得非常重要。但是因为社会网络中的文本有其自身的特点,传统的针对长文本的主题分析模型并不能取得很好的效果。社会网络中的文本有几个显著特点:高维性、稀疏性、不规范性、主题分布不均。换言之,微博中每分钟都会有大量的消息文本产生,这些消息文本很可能产生上万维的向量,这对于主题分析模型来说太耗时,导致效率低下;而对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性;用语不规范和流行语多,是网络文本的最大特点,也为这类主题挖掘带来了诸多难点;另外,发布的消息主题类型完全依赖于用户自己的兴趣,在微博中,绝大多数消息都是关于日常生活的,比如天气,心情等,因此仅仅根据单词出现的次数来判断其是否为热点话题相关的单词的做法不足可取。用传统的主题分析方法对微博中的文本进行热点话题挖掘,一方面识别不出热点话题相关的信息,会导致准确率较低:另一方面,文本太多,使得主题分析效率很低。近年来,有很多针对微博中热点话题挖掘进行的研究。鉴于微博中文本存在的特点及针对该文本进行热点话题挖掘所存在的问题,本文首先对,利用外部数据集进行了深入地探讨;另外,利用微博中自身属性也是一个研究方向,微博中的属性包括发布时间,标签,转发数和评论数等,这些属性对于热点话题挖掘非常有用,本文探讨了如何对此加以利用,提高热点话题的预测准确率。本论文的贡献如下:1)根据基于实体的相似性算法将每个用户所发布的相似消息合并为一个文档,增加文档信息;然后将多个外部数据集作为知识背景,用LDA (Latent Dirichlet Allocation)模型对数据集进行热点话题挖掘。2)提出一个新的主题分析模型MA-LDA (Multi-Attribute Latent Dirichlet Allocation),这个模型将文本中单词的时间分布和标签结合到LDA模型之中。通过时间变量来判断当前分析的单词属于热点话题,还是一般话题;通过增加标签词汇的权重,使得实验结果中标签词汇排名更靠前,提高了结果的表达性。实验结果表明,本文提出的方法既提高了热点话题挖掘的准确率,也显著地提高了主题分析模型的效率。