论文部分内容阅读
随着互联网的发展和微博的日趋流行,新浪等中文微博网站已成为海量信息的发布平台,然而目前对中文微博的研究大多还是针对单一的用户关系分析,对微博本身内容的挖掘分析研究较少。尽管传统文本的主题挖掘已经得到了广泛的应用和研究,而微博是一种带有固定格式的特殊文本,除了文本信息相关特征外,本身还具有一些结构化的社交网络系统的信息,相关研究表示传统的文本挖掘算法不能很好地直接应用其上进行建模。如何选取合适的主题挖掘方法与技术,并基于微博文本的特征,有效地挖掘微博文本的主题是本文的思考和探究的问题。通过对这些问题的剖析,来更好地认识和利用微博的价值。 本文的主要工作及创新如下: 1)深入分析了文本主题挖掘的相关技术和方法,通过对比分析研究传统的算法和各主题模型的优缺点,重点研究了标准LDA模型的原理、主题数的确定、参数估计和文本生成算法,调研分析了近年来基于标准LDA模型改进的各种衍生模型,为笔者对LDA模型的改进提供理论和实践基础和依据。 2)根据现有衍生模型的经验,笔者在标准LDA模型的基础上,深入观察和总结了微博的特征,综合考虑了微博中的文本内容信息和关注者、转发信息等结构化的数据,提出了适合于微博主题挖掘的新模型MLDA。 3)在新浪微博上爬取了较大规模的真实数据集分别对标准LDA和MLDA模型进行了对比实验,对于模型的参数估计,根据过去研究人员的经验,选取了Gibbs抽样算法进行求解,并有效利用开源的Gibbs-LDA++工具实现主题挖掘。实验结果表明MLDA模型能很好地对微博数据进行主题挖掘,验证了该方法的有效性和推广性。