面向个性化主题的半监督文本聚类算法研究

来源 :贵州大学 | 被引量 : 1次 | 上传用户:qq447105111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在全球范围的普及,上网人数不断增加,互联网中积累的数据也在成指数级别的增长。这些数据中有相当大的一部分数据为文本数据。怎样有效地分析这些文本数据,并从中挖掘有价值信息成为一个热点研究的问题。在数据挖掘中,作为文本分析的重要技术措施之一的半监督文本聚类方法,能够有效利用少量监督信息来提高聚类的性能。因此,这种方法被广泛关注。大部分现有的半监督文本聚类算法忽视或者不能很好的利用用户的个体意愿,从而没有办法很好地实现个性化的文本划分,或者因为监督信息的形式对用户来说难以实现而导致算法的应用范围十分有限。此外,在实际的操作过程中,相对于庞大的文本数据,用户能提供的监督信息相当稀少,使得这些少量的监督信息对聚类过程的影响也十分有限。基于对半监督文本聚类相关研究背景及现有的半监督聚类算法所存在问题的分析,本文研究内容和研究成果体现在:(1)本文提出了一种新的监督信息格式,即感兴趣和不感兴趣这种关键词的格式。这种新的监督信息格式不仅便于用户提供,而且在一定程度上解决了用户个性化的体现问题及监督信息的形式问题。(2)根据用户提供的有限的监督信息、文本和潜在主题中词的分布,对监督信息进行学习和扩充来解决监督信息匮乏的问题。LDA在解决聚类问题上具有良好的性能,并且能够挖掘出文本间潜在的主题。因此,本文将LDA引入到半监督文本聚类问题中,使用罐子模型来模拟结合新的监督信息形式的文本聚类过程。本文针对新提出的监督信息形式并利用词的分布对其扩展,提出了一种可扩展的基于用户偏好的半监督文本聚类算法(extended LDA,ex LDA)。为了验证算法的有效性,本文从新闻数据集20-newsgroups中的不同角度选取五组真实数据集进行实验,首先从监督信息形式角度分析监督信息的合理性和有效性,最后从监督信息的扩展上验证了扩展监督信息对聚类结果的影响。在真实数据集上的实验表明,同传统和最新的半监督文本聚类算法比较,在解决文本聚类的问题上,本文提出的ex LDA算法具有更高的准确度,同时能满足用户个性化的文本划分。
其他文献
关联规则挖掘是数据挖掘研究中的热点问题之一,其目的是发现数据库中数据项之间存在的潜在联系。关联规则挖掘的重点任务是频繁模式挖掘。然而,由于频繁模式挖掘的复杂性,业
当前实际应用产生的数据维度越来越高,受维度效应的影响,许多在低维数据上表现良好的聚类方法运用在高维数据上时无法获得好的聚类效果。在过去十几年,高维数据的聚类方法是聚类
自主地面机器人技术是智能机器人研究领域的热点。自主地面机器人体系结构把感知、融合、建模、规划、决策、行动等多种模块结合起来,使得机器人系统在复杂环境中完成地面自
机翼是飞机的重要部件之一,是飞机飞行性能的决定因素之一。翼型是机翼性能的决定因素,因而翼型设计是机翼设计的首要环节。现代飞机设计要求翼型的设计周期不断缩短、性能不
随着多媒体技术和网络技术的飞速发展,数字媒体(数字图像、数字视频、数字音频等)已得到了广泛应用,人们在享受快速获取信息的同时,也面临着盗版、信息失控等非常严重的威胁,因
大粒度服务作为服务计算领域一个新兴的研究领域,受到了越来越多的关注。大粒度服务的出现和应用加强了互联网环境中服务共享、重用和集成的能力。为用户快速构建复杂系统提
文本聚类作为一种无监督的机器学习方法,近年来已成为自然语言处理领域中研究的热点,传统的聚类算法只能将一个样本点划分到一个聚类中,但现实生活中,很多事物的归属并没有特
在信息时代的科学研究中,我们不可避免的会遇到大量的高维数据,这就要求我们对高维数据进行处理。降维算法是处理高维数据的一个重要手段,也是特征提取的重要方式。降维的主要目
电源是电力设施的心脏,在森林防火系统作用不言而喻。相对于深山中的森林防火系统用太阳能风能作为电力供应不失为一种简单、经济的方式。太阳能和风能发电是当今世界上可利用能源中最清洁、最现实、最有开发利用前景的发电方式之一。实际中,太阳能风能单独发电受自然条件的制约非常严重,但在时间和空间上却有很大的互补性。所以将二者结合起来组成混合发电系统,可以在很大程度上解决太阳能风能单独发电时断时续的状况。本论文根
随着科技时代的发展,信息化将步入我们的生活,在教学领域也有了长足的进步,教学方式有了进一步的变化,从书面教学到电脑教学,从二位图片展示,到三维立体模型的表达,能够更生