论文部分内容阅读
在信息检索中,文本聚类的目的是发现语义上较为相近的文本,精确的聚类结果能够使用户快速地理解文本的内容,从而做出有利的判断。文本聚类在市场销售、城市规划、地震研究等方面起着不可或缺的重要作用。而随着网络的普及和网络购物的日益盛行,人们越来越多的通过网络实现主观需求并表达自己的观点。因此对观点聚类的研究也变得很有必要。本文分别从主题和观点两个角度进行了聚类研究。对于主题聚类,提出了基于潜在狄利克雷分配(LDA)模型的特征选择方法;对于观点聚类,采用LDA建模得到的文本与隐含类别之间的关系矩阵进行文本表示,并对所提出的观点聚类方法进行了领域依赖性检验。主要内容如下:(1)基于LDA特征选择方法的主题聚类。通过LDA建模,发现特征和主题之间的隐含关系,在此基础上,对主题聚类的特征进行了选择,采用K-means算法对文本进行了主题聚类。为了验证该方法的有效性,与词语贡献度的特征选择方法+K-means算法以及基于LDA模型的文本与隐含类别之间的概率分布矩阵直接得到聚类结果进行了比较实验,实验结果显示,当选择2%的特征时,相对于词语贡献度(Term Contribution, TC)方法的纯度和F值分别提高了15%和16%,相对于LDA直接得到文本与类别关系的实验结果的纯度和F值分别提高了14%和13%。(2)基于文本与隐含类别间的概率分布的文本表示的观点聚类。使用LDA建模,获得文本与隐含类别之间的概率分布矩阵,以此将文本来表示成概率分布的向量空间模型。为了验证方法的有效性,与布尔模型的文本表示法和TF-IDF的表示进行对比分析。利用K-means聚类算法,在第一届中文倾向性分析评测会议(COAE2008)数据上的进行了实验,结果表明,在最好的情况下,本文所提出的方法比布尔表示法的聚类结果提高了6%的纯度和7%的F值,比TF-IDF表示的聚类结果高6%的纯度和9%的F值。说明了本文所使用的方法在文本的表示更合理。(3)观点聚类的领域依赖性检验。观点聚类是观点挖掘任务之一。由于观点挖掘通常具有很强的领域依赖性,因此,本文对于所提出的观点聚类方法进行了领域依赖性检验。将COAE2008的数据集分领域后进行实验,实验结果表明,在领域较混合的数据集上的实验结果与领域单一的数据集上的实验结果相比,平均高出5.7%的纯度和4.9%的F值。因此本文提出的观点聚类方法更适应于领域较混合的数据。