论文部分内容阅读
微博,作为一种新兴的互联网交流与分享平台,已经获得巨大数量用户的亲睐,Twitter、FaceBook、Sina、Tencent等微博网站已成为海量信息的发布体。微博平台中蕴含着大量有价值的信息有待挖掘。在数据挖掘领域,尽管传统的基于文本、基于内容的挖掘分析方法已经得到了广泛的研究并取得了很大的成功。但对于微博文本的特殊性,每条文本信息短小、口语化且带有一些结构化社会网络方面的信息,传统的文本挖掘算法不能很好的对它进行建模。而由于海量用户及信息的存在,使微博的数据挖掘不能仅仅依靠用户关系的分析。为了满足微博营销寻找投放目标的需求,本文综合考虑了面向微博文本内容及微博用户社会化链接关系,提出了一种微博主题社区的发现方法。文中创造性的结合了领袖发现、文本分类以及最大流社区发现的基于内容、链接关系的分析技术,同时采用多种剪枝策略,设计出了一个比较高效准确的微博主题爬虫。实验经过真实数据的采集,并且从不同的维度对结果数据进行了实验分析。