基于LDA模型的观点聚类研究

来源 :山西大学 | 被引量 : 5次 | 上传用户:caful
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索中,文本聚类的目的是发现语义上较为相近的文本,精确的聚类结果能够使用户快速地理解文本的内容,从而做出有利的判断。文本聚类在市场销售、城市规划、地震研究等方面起着不可或缺的重要作用。而随着网络的普及和网络购物的日益盛行,人们越来越多的通过网络实现主观需求并表达自己的观点。因此对观点聚类的研究也变得很有必要。本文分别从主题和观点两个角度进行了聚类研究。对于主题聚类,提出了基于潜在狄利克雷分配(LDA)模型的特征选择方法;对于观点聚类,采用LDA建模得到的文本与隐含类别之间的关系矩阵进行文本表示,并对所提出的观点聚类方法进行了领域依赖性检验。主要内容如下:(1)基于LDA特征选择方法的主题聚类。通过LDA建模,发现特征和主题之间的隐含关系,在此基础上,对主题聚类的特征进行了选择,采用K-means算法对文本进行了主题聚类。为了验证该方法的有效性,与词语贡献度的特征选择方法+K-means算法以及基于LDA模型的文本与隐含类别之间的概率分布矩阵直接得到聚类结果进行了比较实验,实验结果显示,当选择2%的特征时,相对于词语贡献度(Term Contribution, TC)方法的纯度和F值分别提高了15%和16%,相对于LDA直接得到文本与类别关系的实验结果的纯度和F值分别提高了14%和13%。(2)基于文本与隐含类别间的概率分布的文本表示的观点聚类。使用LDA建模,获得文本与隐含类别之间的概率分布矩阵,以此将文本来表示成概率分布的向量空间模型。为了验证方法的有效性,与布尔模型的文本表示法和TF-IDF的表示进行对比分析。利用K-means聚类算法,在第一届中文倾向性分析评测会议(COAE2008)数据上的进行了实验,结果表明,在最好的情况下,本文所提出的方法比布尔表示法的聚类结果提高了6%的纯度和7%的F值,比TF-IDF表示的聚类结果高6%的纯度和9%的F值。说明了本文所使用的方法在文本的表示更合理。(3)观点聚类的领域依赖性检验。观点聚类是观点挖掘任务之一。由于观点挖掘通常具有很强的领域依赖性,因此,本文对于所提出的观点聚类方法进行了领域依赖性检验。将COAE2008的数据集分领域后进行实验,实验结果表明,在领域较混合的数据集上的实验结果与领域单一的数据集上的实验结果相比,平均高出5.7%的纯度和4.9%的F值。因此本文提出的观点聚类方法更适应于领域较混合的数据。
其他文献
本文研究二阶拟线性双曲型方程组的精确边界能控性与能观性.作者利用延拓的方法将已有的一维拟线性波动方程的局部精确边界能控性发展到了整体精确边界能控性.以一维拟线性波
这篇博士学位论文主要讨论了无穷曲面散射问题以及非齐次传导介质电磁散射反问题,全文共分为两大部分。   第一部分,讨论了无穷曲面散射问题无穷曲面散射问题描述的是声波、
分位数回归模型相比普通回归模型能够更加全面的描述所研究的统计对象。在越来越多的研究当中,我们通常希望知道研究对象在不同水平时受各种变量因素的影响,而不仅仅局限于平均
学位
波动性是经济和金融时间序列普遍存在的现象,我们对金融数据的分析主要是对它波动性进行研究.在所有金融时间序列的研究中刻画金融数据的波动性最常见的有两大类模型:第一类是A
群和图一直是人们研究的对象,但是把群和图结合起来,应用群来研究图或者应用图来研究群则是较近的事情.R-Fruchet在1938年证明了对于任意给定的抽象群,都存在一个图以它为自同构
第一部分考虑辛算法的稳定性问题。辛算法的线性稳定性关注椭圆平衡点的稳定性,是以平面谐振子方程作为试验方程,研究产生稳定的数值解的时间步长集合(称之为算法的线性稳定域)
双线性对体制是近几年来数字密码研究比较热门的体制,它是用来构造数字签名方案的重要工具,利用双线性对构造出来的数字签名具有短密钥,高安全性和快速实现等优点。双线性映射是
域上的一元Ore多项式环是统一处理线性常微分、差分、q-差分和其他算子的代数模型。它是一类特殊的非交换主理想整环。在本文中,利用Ore多项式环统一地研究微分、差分方程中的
螺旋波斑图是在非线性动力学系统中观察到的一种非常典型的时空白组织结构。它作为斑图动力学研究的一个重要分支,普遍存在于物理、化学、生物学、生态学等各个方面,其动力学行