基于半监督学习的文本聚类研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:kyzy0082
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,人们可以获取海量的信息,其中大部分信息是以文本的形式存在的。现实世界中通常存在着少量的有标记样本和大量的无标记样本,仅使用少量的有标记样本的监督学习泛化能力不强,而无监督学习又不能高效地利用无标记样本。半监督学习能够利用少量的有标记样本和大量的无标记样本提高学习性能。因此研究半监督的文本聚类具有重要的意义。常见的文本聚类算法无法高效地利用无标记样本进行聚类,并且聚类结果受特征向量的影响,特征维度过高会导致聚类效果不佳。针对这些问题,本文提出了一种基于半监督学习的文本聚类算法。该算法首先对实验语料库进行文本预处理,利用word2vec模型训练语料,学习词语之间的语义关系,将文本转化成稀疏的原始向量形式;然后使用基于卷积神经网络的特征提取模型对原始向量进行特征提取,该模型使用一部分有标记样本进行卷积神经网络的训练,再利用训练好的卷积神经网络对文本向量进行特征提取,该模型不仅提取了重要特征,而且降低了特征维度;最后为了解决K-means算法依赖初始聚类中心的问题,采用半监督学习的方式,利用少量的有标记样本来确定K-means算法的初始聚类中心,为避免某个有标记样本可能是孤立点,通过计算样本点之间的马氏距离来排除此点。本文在文本数据集20 Newsgroups和人工数据集上分别进行了实验,使用了准确率、NMI和F-Measure三种聚类效果评价指标。其中文本数据集20 Newsgroups上的实验结果表明,本文算法的准确率达到45%以上,NMI值达到35%以上,F-Measure达到39%以上,优于其他的文本聚类算法。人工数据集上的实验选用2012年搜狐新闻数据,实验结果表明,本文算法的准确率超过了 90%,NMI值超过了 63%,F-Measure超过了 80%,本文算法应用于短文本可以解决短文本特征高维、稀疏的问题。
其他文献
近些年来,随着我国5G通信业务的迅猛增长以及3G/4G手机用户的庞大需求,导致了三大运营商对通信基站的大量需求,根据国家有关规定,作为我国唯一的通信基站基础设施服务企业——中国铁塔公司应运而生。铁塔公司通信基站的业务管理和维护能力的强弱,直接决定了其为移动运营商提供的无线通信服务的质量的高低。因此,如何对通信基站进行高效运维,是现在各级铁塔公司面临的一个重要议题。通过信息化手段对铁塔公司所属的通信
玉米须是禾本科植物玉蜀黍(Zea Mays L.)的雌花的柱头,是一种应用广泛的功能性食品和中草药。它含有多种活性成分如膳食纤维、多糖、黄酮、有机酸、皂甙、生物碱等,对人体健康有重要影响。以往对玉米须多糖的研究表明,其具有抗氧化、抗肿瘤、抗糖尿病、抗疲劳、抗肥胖等功效,被认为是一种潜在的功能食品。本研究旨在为玉米须多糖的充分利用提供参考。在前期证明玉米须多糖具有降血糖活性的基础上,研究了玉米须多糖
化石燃料的燃烧导致空气中的二氧化碳大量增加。清洁能源受技术和成本的限制,难以在短时间内取代化石燃料的主导地位。在这样的背景下,对二氧化碳进行捕集和封存是减少二氧化碳排放的最有效途径。吸附分离技术在捕集二氧化碳方面非常具有竞争力,其面临的主要问题是开发高效的吸附剂。对吸附剂表面进行表面改性处理,可以显著提高其对二氧化碳的吸附选择性;以多孔碳材料为载体的水合物法能够大幅提高对二氧化碳的捕集容量,表现出
近年来,在国家政府的支持及引导下,装配式建筑发展迅猛,预制混凝土夹心保温墙板是装配式节能建筑的重要组成部分,连接件是组成夹心墙板的关键部件。但是现存的夹心墙板连接件存在锚固力低、抗剪力差、墙板连接整体性不足、安全性低等问题,减缓了装配式建筑行业的发展进程,因此亟需研究一种高锚固力、高抗剪强度、高安全性的新型连接件,促使装配式建筑混凝土构件的进一步发展。本文依托《装配式建筑构件生产技术及构件连接技术
在古代中国与周边国家的往来中,朝鲜半岛与中国地域相邻,两国不仅政治联系密切,经济贸易活跃,文化交流更是十分频繁。15世纪是两国宗藩关系由确立到发展的重要时期,而这种关系的维系主要依托两国使臣的相互往来,“土木之变”后,明朝每逢国家大事皆派遣才学兼备的文臣出使朝鲜,以此传播明朝礼治社会的大国形象,树立明朝的权威,这种方式对两国的文化友好交流产生了重大的影响。在朝鲜宴请明朝文臣的使客宴中,会安排演奏乐
学位
在过去30年中,我国证券行业业迅猛发展,新型业务特别是创新业务的发展也是在不断推进,证券公司开始走向多样化发展。为了提高经济效益,证券公司往往忽视了内部控制体系和风险管理的管理工作。尽管C公司还建立了一个相对完善的内部控制和风险管理系统,但周某某的股票质押违约事件暴露出C公司在内部控制和风险管理的过程中存在着诸多问题。本文将从C公司股票质押业务内部控制的现状及存在的问题出发,通过建立内部控制评价指
艰险山区深长隧道穿越断层破碎带时,隧道施工会影响隧道围岩的稳定性,极易出现地层松动变形、坍塌、涌突水等现象,可能引起隧道发生失稳破坏,甚至会影响地表建(构)筑物发生大变形等灾害问题。目前,大埋深长隧道安全快速的穿越艰险山区断层破碎带地层的施工工艺尚不成熟。因此,为隧道安全快速的通过复杂地层,对隧道穿越艰险山区断层破碎带时容易出现的地质灾害问题展开研究具有重要的现实意义。针对以上问题,本文以峨眉山至
随着时代和科技的发展,世界人口不断的增多,越来越多的人选择生活在交通便利、物资丰富的城市地区,车辆的持有量也不停的攀升,日益增多的交通需求导致现有的交通网络承载力逼近上限,交通拥堵成为不容忽视的重要问题。为解决这一问题,现有的交通道路网络迫切需要能与基础设施配合的解决方案来缓解拥堵,提高交通网络的运行效率。交通信号控制系统主宰着道路网络内的交通流运作,合理的交通信号控制策略一直是近年来智能交通领域
学位
自人类步入文明社会以来,“休闲”就是人们一直以来探讨的话题。生活方面人们在面对生命被异化的过程中逐渐觉醒,开始表现出对于休闲的诉求;学术方面随着对休闲哲学逐年深入的研究,成果不断涌现。然而,现实却出现了人们不知休闲和缺乏实修至闲的理论之窘境。然休闲本质实为“修心休欲”,人不知闲之源就是因为心随物牵引,物欲横生。反观理学,其思想不仅包括休闲思想的理论论述,而且还包含实现休闲所需的具体工夫途径。因此本