论文部分内容阅读
近几年,互联网技术发展迅猛,网络的便捷性使得互联网在人与人的交流沟通上具有天生的优势,因此社交网络已成为互联网技术发展的“排头兵”。社交网络中比较具有代表性的是微博客的出现,很多社会热点话题往往都是从微博开始传播,如何从微博中找到热点话题,是非常有现实意义的工作。基于以上背景,本文针对社交网络热点话题发现工作进行了研究,设计了一种基于分类的话题发现方法。本方法的优势在于提升了短文本发现的精确度,优化了话题发现结果的表达。本文的主要工作和研究内容如下:第一,设计了一种基于分类的话题发现方法,解决了原有的话题发现方法在应用于社交网络文本时精度不高,容易将同一关键字下的不同话题混淆的问题。本方法主要包括以下几个步骤:微博数据采集、数据预处理、文本分类、改进的主题发现方法、改进的话题表现形式。其中文本分类环节、话题表现形式的改进均为原有的话题发现流程所不具备的环节。第二,在主题发现方法的改进上,采用了基于LDA主题模型的话题发现方法,将其分为三个步骤:中文分词、LDA主题建模、主题聚类。在中文分词环节,加入了新词发现模块,提高了分词准确率。第三,在文本分类的环节中,利用本体来抓取训练语料,进行了特定领域主题发现的尝试,进而推广至广域的话题发现领域,在传统的话题发现流程中加入了文本分类这一环节,以提高话题发现的准确率。在话题表现形式上,设计了中心句的相似度计算方法,利用微博的中心句和内容,将原有的主题—词语模型转化为完整的语句,直观的向用户展示话题发现的最终结果。在新浪微博实时数据基础上进行的实验表明,本文所提出的方法对原有的话题发现方法的准确率有一定的提升,能够寻找出潜在话题的中心句,具有一定的实用价值和可扩展性。