基于粗糙集的半监督聚类算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:shashuang0126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘技术迅速发展,半监督学习成为模式识别和机器学习领域研究的重点问题。监督学习算法依靠大量有标签数据进行学习,但在很多场景中有标签数据获取十分困难,进而无法保证算法的泛化能力。而半监督学习通过少量标签数据,能够完成对大量无标签数据的归类划分,这一特点使得半监督学习拥有更广泛的适用场景。粗糙集理论是用来处理各种不完全、不精确及不确定数据的一种数据分析方法。粗糙集可以通过样本间不可分辨关系进行分类,以及对目标的近似进行知识发现。本文将粗糙集理论应用于半监督聚类,依靠少量有标签样本和大量无标签样本在不同属性上的不可分辨关系进行半监督聚类,有助于发现更多维度上的信息。本文基于粗糙集理论提出了两种半监督聚类算法,分别应用于非稀疏数据和高维稀疏数据,以消除定义在传统距离下的算法在高维数据上的局限性。本文的主要研究工作有:(1)对于非稀疏数据,提出一种基于不可分辨关系的半监督聚类算法(ER-SSC)。ER-SSC算法通过邻域粗糙集和定量粗糙集定义的弱不可分辨关系进行聚类,通过多次迭代动态寻找邻域半径,并采用策略剔除模糊样本点,对于高维非稀疏数据,通过多次随机选择属性进行聚类,加权得到最终结果。(2)对于高维稀疏数据,提出一种基于属性选择的半监督聚类算法(FS-SSC)。FS-SSC算法中需要给每一类给定少量关键属性,通过关键属性构造的代表点进行聚类。FS-SSC利用一种基于关键属性的距离来衡量样本点与代表点间的相似度,通过一次聚类结果对关键属性集合进行扩展,逐步提高聚类效果。
其他文献
Delta算子离散化方法作为连续时间模型和离散时间模型的统一描述方法,已成为连接连续系统和离散系统的纽带。在快速采样条件下,Delta算子描述的离散模型趋近于相应的连续模型,可以有效地避免使用传统移位算子描述系统所带来的数值不稳定问题。执行器饱和现象普遍存在于实际的控制系统中。当执行器的输入量达到一定限制从而进入饱和状态时,进一步增加输入不能对执行器的输出产生任何影响。执行器饱和将使系统的动态性能
三维形体研究已经经历了数十年的发展,并取得了丰硕的成果,为诸如三维游戏、医疗研究、三维打印、虚拟现实研究、分子生物学研究、等诸多领域提供了方便。但是对于复杂的非刚
短波通信使用的频段是3M-30MHz,属于高频频段(High Frequency,HF),短波通信也因此称为HF通信,其利用电离层反射的天波传输可以实现远距离通信。由于短波具有对基建要求低、通
到目前为止,随着多媒体技术的发展,三维信息技术已经在人们日常生活中的诸多领域内取得了广泛的应用,为诸如3D游戏、医疗影像研究与应用、3D打印、虚拟现实技术的研究与应用
我国可转债市场正处于新兴繁荣阶段,越来越多的企业利用可转债进行融资。可转债特殊之处除了“上不封顶,下有保底”的优点外,还可以使得投资者行使转股权,可转债的这些优点吸引了越来越多的投资者。但是由于目前大部分投资者对可转债价值缺乏清晰彻底的认识,不合理的转股行为时有发生。非理性转股会对股价产生不利影响,因此对可转债转股产生的股价影响展开研究对于发行公司价值研究、可转债投资者财富管理以及促进金融市场的稳
伴随着通信技术的发展,广播网络同样在经历着变革与更新。下一代广播网络将具有超高清广播、鲁棒性传输和支持交互性业务的特点。为了更好地满足用户的需求,美国ATSC3.0(Adva
随着经济全球化和信息技术日益向纵深方向发展,软件开发团队面临着愈演愈烈的竞争环境。目前大部分的软件开发团队正面临着开发效率不能完全应对高速发展的需求的困难。频繁的变动需求导致软件开发团队成本增加,同时也造成在软件开发的过程中无法及时、灵活的对需求变动作出回应等问题。软件开发团队获得竞争优势的关键就是如何快速响应变化、提升应对效率。这时,提升软件开发团队敏捷性成为团队顺利完成开发、提升竞争力的核心之
基于2000—2009年工业企业数据库和海关贸易数据库,借鉴De Loecker(2012)的模型对企业加成率及可变生产率进行估计。在此基础上,检验了国际化经营的两种主要方式与企业成本加成率之间的关系,以分析其要素楔子扭曲效应;而后以企业成本加成率的离散度作为衡量资源配置扭曲的指标,并就出口与对外直接投资这两者对资源配置溢价的影响进行检验,以分析其效率楔子扭曲效应。本文进一步分析了异质性企业间影响
随着能源危机和环保形势的日益严峻,寻找可再生能源的新能源汽车成为迫在眉睫的一项任务。混合动力汽车(Hybrid Electric Vehicle,HEV)的多种能量源各自有不同特性,因此对于能量的管理成为混合动力汽车的核心问题。混合动力汽车集合了电气、机械系统,其中还有化学变化和热力学过程参与,很难使用数学模型进行精确地描述。本文针对并联式混合动力汽车能量管理策略存在的问题提出了优化方案,结合模糊
为加强进出口纺织原料的质量安全管理,山东检验检疫技术中心需要从媒体、论坛、博客、微博等网站里获取进出口纺织原料质量安全信息,并对信息进行统计、剖析、评估和上报。论文针对进出口纺织原料的质量安全管理工作的实际需求,分析、设计并实现“进出口纺织原料自动文摘系统”,主要的研究工作如下:(1)针对现有中文分词算法中歧义切分正确率低的问题,提出了一种新的分词算法—TD-MD算法,该算法将基于统计的互信息与t