论文部分内容阅读
随着web2.0的不断发展,微博逐渐成为人们交流情感、了解最新时事的一种重要的社交网络平台。人们不再面临信息匮乏的问题,相反,由于微博平台信息发布门槛低、传播速度快等特点,微博数据呈爆炸式增长,人们很难从这些良莠不齐的微博数据中快速知道最近或某一时间段内社会和人们一直在讨论或关注的主题,尤其是具体到某个主题的某个方面。因此,该文通过分析中文微博数据特点和传播方式,对中文微博主题的层次识别方法进行了探讨研究。首先,分析了微博数据传播方式及传统微博数据获取方法,在此基础上,提出了一种新的基于优质账号的微博数据获取方法。该方法通过综合考虑微博用户的粉丝数量、关注数量、发博数量和等级,选定初始用户种子,再根据用户种子扩展优质粉丝账号系列来获取主题相对集中的微博数据。其次,对中文微博数据预处理及表示方法进行了探讨。然后,针对目前中文微博主题识别仅在粗粒度上进行识别这一现状,通过分析研究两种较典型的主题识别方法:基于狄利克雷分布的LDA(Latent Dirichlet Allocation)主题识别方法和基于增量聚类算法的主题识别方法SinglePass的特点和应用局限性,提出了一种新的中文微博主题层次识别方法LSP。 LSP方法结合了LDA和SinglePass的优点,在首层主题识别时,考虑到微博数据量大、特征稀疏的特点,采用LDA主题识别方法进行识别,接着在识别子层主题时,引入了微博特有的评论转发功能,改进传统的SinglePass主题识别方法对子层主题进行识别。通过设置大小不同的相似度阈值可以生成不同粒度层次的主题集合,从而形成多层的主题结构。同时,针对微博数据特征稀疏问题,提出语义与统计相结合的中文微博相似度计算方法。该方法在利用知网作为背景知识计算语义相似度的同时,引入了词语的相关度,从而使包含不同同义词、近义词的文本或具有相关语义的文本也能被识别出来,进而提高了微博文本相似度计算的精度。最后,通过新浪微博实例数据集对该文提出的中文微博主题层次识别方法LSP进行了实验验证,结果表明给出的主题层次识别方法能有效表达主题的层次结构。