半监督聚类与分类算法研究

被引量 : 0次 | 上传用户:wangying2880
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是人工智能的重要研究课题之一,已广泛应用于自然语言处理、生物特征识别、计算机视觉和手写数字识别等领域。传统的机器学习包括有监督和无监督两种学习方式。监督学习需要大量的标记样本以学习一个好的分类器,并利用该分类器对未见样本进行类别判断和预测。但是当标记样本较少时,所获得分类器的泛化能力往往较差,而且样本的标记过程既耗时又费力。而无监督学习由于没有标记样本导致了学习过程的盲目性,可能无法取得理想的结果。因此,如何充分利用少量的标记样本和大量的未标记样本获得较好的学习器,即半监督学习,已成为机器学习中最受关注的方向之一。半监督学习包含半监督聚类、半监督分类和半监督回归三种学习方式,本文在分析了半监督学习算法的研究现状及存在问题的基础上,对半监督聚类和分类算法进行了研究。首先,将流形假设引入到半监督聚类算法中,提出了一种基于流形结构的半监督混合高斯模型,该算法依据标记和未标记样本的局部一致性,利用Kullback-Leibler散度构建p近邻图以挖掘出样本的内在流形结构,并将流形结构以图正则化的形式与先验信息分别加入到混合高斯模型的目标函数中,最后通过EM算法求解获得最优参数。在仿真和实际数据上的实验结果表明了本算法的有效性,同时在图像分割上的实验进一步说明了本算法具有一定的实用性。其次,考虑到核最小平方误差算法的性能严重依赖于标记样本的数量,因此本文将流形假设应用于该算法中,提出了一种基于拉普拉斯正则化的半监督核最小平方误差算法。通过构造p近邻图挖掘出标记和未标记样本的内在流形结构,并采用图拉普拉斯算子构建流形正则项,嵌入到核最小平方误差算法的目标函数中,从而实现半监督分类算法。在标准数据集和人脸识别上的实验结果表明本算法能有效地处理标记样本较少的问题,同时获得一个较好的分类器。然后,提出了一种基于聚类分析的自训练分类算法,该算法将聚类算法嵌入到自训练分类算法中,其基本思想是利用半监督聚类算法尽量挖掘出标记和未标记样本的结构信息,并结合所得到的结构信息预选择出高置信度样本,然后用判别式分类器从预选择样本集中选择高置信度样本。相比于自训练分类算法,本算法一定程度上弥补了仅用标记样本带来的信息不足。仿真实验表明,当标记样本覆盖的空间与真实数据空间不一致时,本算法能获得较好的泛化能力。实际数据的实验结果更进一步说明了本算法的有效性和鲁棒性。最后,提出了一种基于半监督降维技术和仿射传播算法的自训练分类算法,该算法将降维方法嵌入到自训练分类算法中,采用半监督降维技术能有效地解决标记样本较少情况下数据的维数灾难问题,同时相比于选择均值模板或者κ均值聚类算法得到的模板,利用仿射传播算法选择得到的代表性样本是真实存在而不是虚构的,作为最近邻分类器的模板能更好地处理非高斯分布的数据。本文将该算法应用于人脸识别中,实验结果表明该算法具有较好的高维数据处理能力和较高的识别精度。
其他文献
[目的]探讨依据术前MRI检查结果对老年多椎体骨质疏松压缩骨折行选择性椎体后凸成形术的疗效。[方法]自2003年6月~2006年12月老年多椎体骨质疏松压缩骨折21例57椎,采用根据术
本研究旨在建立一个简单、快速、低廉、实用的小动物动脉血栓模型,为溶栓药物研究提供手段。经鼠右髂动脉插管至腹主动脉最下端监测血压,左颈静脉插管以备给药,用不同浓度的三氯
吉木萨尔盆地位于准格尔盆地东南部,其内的吉木萨尔凹陷属于岩性地层油气藏,具有陆相烃源岩和储集岩的优势,烃源岩有机质丰度高、发育多套陆相储集层系和油气盖层,生储盖组合
不动产登记制度是物权变动理论的重要组成部分,在市场经济活动中发挥着维护交易安全、保障当事人合法权益的关键作用。不动产登记错误责任是指不动产登记薄的记载事项与真实
加强高校思政课教师队伍建设,打造"三三三型"教学团队,即建设"三力型"教学队伍,培养"三高型"教学骨干,造就"三术型"教学专家,提高综合师力,为增强高校思政课教学的实效性提供
【正】 电视机商品已有四十多年的历史,自六十年代到七十年代发展非常迅速。目前,全世界约有黑白电视及彩色电视四亿多台,平均每九个人有一台。但各国的发展是很不平衡的,美
在发展中国家,高血压是心血管疾病的一个重要危险因素。血压的升高可以导致很多心血管事件,如休克、心肌梗死、肾功能衰竭等并发症乃至死亡。预防血压的升高对减少此类心血管事
[目的]总结单髁置换术(UKA)治疗单间室膝骨性关节炎的中期疗效,探讨其疗效及评价方法。[方法]自2004年3月~2006年9月22例(22膝)单间室膝骨性关节炎患者行UKA,术后平均随访时间
目的:探究听觉统合训练(AIT)对孤独谱系障碍(ASD)患儿的疗效,及脑干听觉诱发电位(BAEP)正常与否对疗效的影响。方法:采用方便抽样法抽取90例年龄2~6岁首诊的ASD患儿,以BAEP检测结果分