论文部分内容阅读
随着因特网和各种移动终端的发展,计算机对各种文本类信息处理的重要性日益凸显。短信、微博、电子商务的普及更使得用简短的文字表示信息越来越重要。每天TB级数据的产生,标志着大数据时代的来到。从简单的文本中挖掘舆论倾向,从商品评论中挖掘消费心理,短文本的挖掘有助于帮助政府更贴近了解民意倾向,帮助企业更好的了解用户需求。然而,短文本不像长文本那样具有丰富的语义特征,语义和特征矩阵的稀疏特性导致难以对它进行挖掘。本文的重点在于改善短文本特征矩阵的稀疏性问题,并用改善后的短文本矩阵进行相似度计算。在长文本的领域,主题模型的发展和应用已经日趋成熟。但是对于有着数据稀疏性的短文本来说,主题模型还不能脱离长文本的影子。很多论文致力于如何把短文本通过相关信息扩充成长文本再进行建模计算。由于很多的短文本相关信息并不是那么容易找到,并且这种方法,其结果的好坏对于用来扩充的信息的准确度有着很大的依赖性,所以这种方法不具有通用性。本文结合2013年5月IW3C2会议上提出的在短文本建模方面有具有优势的BTM主题模型对短文本进行特征扩展后,再用扩展后的特征矩阵进行相似度计算,实验证明了本方法取得了很好的效果。本文首先介绍了VSM的原理,以及如何使用VSM对短文本建模进而进行短文本的相似度计算。其次,本文简要介绍三种文本相似度计算公式(距离公式),实验对比了夹角余弦和JS距离两种相似度计算方法的好坏,最终确定了使用JS距离作为本算法中的距离计算方法。然后简要介绍了LSI、pLSI、LDA、和BTM主题模型的原理。简要介绍LDA模型原理、参数估计方法、GibbsLDA模型的输入输出。重点介绍BTM模型建模及推断过程、BTM参数估计方法和BTM模型的输入输出的文档形式和参数。并且实验对比了两种模型在相似度计算中的效果,作为刚刚提出的文本模型,相比较于传统的针对长文本建模的主题模型,和使用外部背景资料进行扩充的短文本处理方法,BTM模型利用整个短文本语料库的丰富信息进行建模和推断,很好的改善了短文本语义稀疏的问题,在短文本建模以及概率推断上有着很大优势。最后,本文提出了使用BTM主题模型对短文本特征扩展来改善短文本特征稀疏的问题,后用改善后的短文本特征矩阵计算短文本相似度的方法,首先对短文本特征选择进行去噪处理,建立短文本的特征矩阵,由于该矩阵具有稀疏性,所以用BTM模型的推断结果对短文本的稀疏的特征矩阵进行特征扩展,将扩展后的矩阵作为相似度计算的输入。最后用JS距离衡量短文本相似度。本文详细介绍了LDA模型和BTM模型的输入输出格式、参数,并在论文的末尾附上了BTM模型预处理代码。本文使用百度知道语料集,通过开源平台Weka中的KNN算法的分类结果来衡量相似度算法的好坏。结果表明,本方法的效果较好。