论文部分内容阅读
Web2.0技术和移动互联网技术的高速发展催生了大量新型的互联网应用,如交互式问答系统、微信、微博等。这些互联网应用产生了大量的短文本信息并且改变了当前互联网信息展现形式。短文本与传统的篇章型网页有很大的不同,短文本表达简洁,用词不规范,大量使用流行语、网络词并且增长迅速。短文本的这些特点使得针对长文本的传统文本聚类方法不再适用,因此,发展针对于短文本的聚类算法对获取短文本中蕴含的丰富信息具有重大意义。本论文对文本信息聚类的关键技术进行了深入的探讨,在分析了短文本的特点后,提出针对短文本的聚类方法和聚类结果描述方法,论文的主要研究内容如下:首先,本文提出了一种两阶段的短文本聚类方法。该方法为了有效的解决短文本动态增长以及数据量巨大的问题,采用了分而治之的策略。首先,本文设定一个合理的窗口大小,使其在动态增长的短文本上依次滑动,对窗口内的短文本采用传统的层次聚类方法进行聚类,得到小的类簇,称之为微簇。接着,本文采用基于信息熵的方法对不同窗口间得到的微簇进行归并,并且在归并的过程中进行两点处理:第一、在多次归并过程中没有改变的类簇,如果其中包含的短文本个数较少,则认为该类簇所包含的短文本构成孤立点和异常点,对其进行删除操作;第二、对剩余的类簇计算稳定度,如果稳定度到达一定值,本文认为该类簇进入一个稳定态,从类簇集合中拿出保存为最终结果。其次,本文提出了一种短文本聚类结果描述方法。该方法从两个角度对类簇进行描述:第一、本文采用基于PageRank的短文本排序算法对类簇中的短文本进行排序,选择最具代表性的前k个短文本作为类簇代表;第二、对得到的k个短文本进行词汇权重计算,选取若干词汇作为类簇标签。一方面,类簇短文本代表可以增强类簇的易读性;另一方面,类簇标签可以作为类簇的标识,起到类似于标题的作用。最后,本文构建微博原型系统,并把本文提出的短文本聚类算法和类簇描述方法应用于其中,以检验算法在实践中的效果。在微博系统中加入微博聚类模块和微博类簇描述模块,从而获取微博系统中的热点话题。通过对短文本聚类方法的研究,有助于开拓Web2.0和移动互联网背景下的信息组织形式,对主题发现与跟踪、互联网信息监管、舆论引导等产生积极的促进作用。