基于局部学习的特征选择方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wylaaram
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们现在正处于大数据时代,大量的高维数据在各种领域中无处不在。当机器学习算法应用于高维数据时,一个关键问题被称为维度灾难。特征选择被认为是解决维度灾难问题的最有效的手段。在许多特征选择算法中,基于局部学习的算法由于在分析高维数据时的低计算复杂度和高准确率受到了广泛的关注。尽管基于局部学习的特征选择算法在实际应用中已取得不错的降维效果,它们仍有一些问题难以解决:(1)有监督的特征选择算法无法同时满足“选择正确的样本最近邻”和“定义与分类器直接相关的损失函数”;(2)无监督的特征选择算法无法同时满足“准确保持高维数据局部流形”和“达到理想的簇分离效果”。针对现有基于局部学习的特征选择方法存在的以上2点问题,本文在研究大间隔理论和谱图理论的基础上,设计并实现了2种高效的特征选择模型。第一,针对现有基于大间隔最近邻的有监督特征选择算法无法同时满足”选择正确的样本最近邻”和”定义与分类器直接相关的损失函数”的问题,本文设计了一种新的基于局部最近邻的有监督特征权重模型。该模型基于局部最小化类内距离和最大化类间距离的技巧。经典的k NN规则被嵌入到模型中,以便于优化每个样本和它邻域内的所有样本的间隔。进一步地,定义一个特征权重向量,然后通过最小化一个带有正则化项的损失函数来构建它。损失函数利用概率模型和1正则化来选择正确的最近邻和消除无关特征。在多种类型的数据集上的实验充分验证了算法的有效性。第二,针对现有基于谱图理论的无监督特征选择算法无法同时满足”准确保持高维数据局部流形”和”达到理想的簇分离效果”的问题,本文设计了一种新的基于联合聚类的无监督特征选择模型。在该模型中,谱聚类和正交基聚类被集成到一个鲁棒的联合聚类框架中。具体地,在谱聚类中一种自适应的计算概率邻居的方法被用于保留可靠的局部信息,在正交基聚类中引入正交基矩阵来实现优秀的簇分离效果。为了选择具有区分力的特征,2,1正则化项与该框架同时运行。实验表明,新提出的特征选择方法在不同的度量指标下均取得了很好的选择性能。
其他文献
面对着城镇机动化的高速发展,交通拥堵已经成为许多大城市的自带属性,过度集中的居民出行活动是城市交通拥堵发生的关键因素,而居民出行方式选择活动是一项复杂的决策行为,若要从根本上缓解交通拥堵问题,须对居民出行方式选择影响因素展开复杂研究。拥堵收费是作为交通需求管理(TDM)中的一种有效手段逐渐被大众所熟知,其本质是利用经济杠杆原理提高高峰期内居民私人汽车出行成本,交通拥堵收费会引起私人小汽车出行费用的
泡沫混凝土具有质轻、保温性能好、密度可调节、自立性、高流动性等优点,如今在建筑保温、路基加宽、路基填筑等方面应用广泛,开展泡沫混凝土强度检测技术的研究有重要的现实意义。传统的拉拔法、回弹法和钻芯法不适用于泡沫混凝土强度检测,所以本文尝试用超声无损检测法对泡沫混凝土强度进行检测,建立泡沫混凝土超声测强曲线,为其在实际工程中的应用提供参考。本文共制作两组共计324个泡沫混凝土试件,第一组为264个10
燃料电池阴极的氧还原反应(ORR)对燃料电池的主要性能起着关键性作用,寻找成本低、催化效果好的阴极材料对燃料电池的商业化应用与发展具有重要意义。本文基于色散校正的密度泛函理论(DFT-D),研究了本征锑烯、Pt,Co原子修饰锑烯及锑烯/石墨烯复合结构作为燃料电池阴极催化材料,对各氧还原中间物O、OH、O2、OOH的吸附特性,模拟了氧还原反应过程,计算了各步反应自由能变化和活化势垒。研究结果表明:P
随着直流技术的发展进步以及直流工程的逐步投运,主流技术已由传统直流发展到柔性直流,由两端直流发展为多端直流,并将由多端直流技术进一步发展形成直流电网的结构。目前关于多端直流输电系统可靠性评估方面的研究还在如火如荼地逐步深入中,但尚未有考虑控制策略对其可靠性影响的研究,为了解决这个问题,本文将从建立多端直流输电系统的可靠性模型入手,提出了一种多端直流输电系统的建模方法,这种方法可以有效解决直接利用频
高中地理教学中的研学实践是当下日益蓬勃发展的研学实践的一个重要分支,越来越受到社会和学界的关注。博物馆的功能不仅仅在于保存、研究、展览还有重要的教育功能,它也是高
公司层面股价崩盘风险的影响因素是当前研究的热点问题,学者们主要围绕信息透明度和代理成本从内外部影响因素展开研究,而忽视了资产误定价对股价崩盘风险的影响。由于中国市场的复杂性和特殊性,例如市场个人投资者占主体地位的格局仍未改变,个人投资者专业知识匮乏、具有投机性和认知偏差;中国市场套利管制严格,不利于套利者利用误定价进行套利交易,以上因素导致市场对公司估值出现偏误且资产误定价现象长期存在难以消除。当
随着社交网络、物联网、电子商务等的应用和普及,当今数据发生爆炸性增长,在线聚集由于通过采样得到近似解,避免扫描整张表,提高了数据库中聚集操作的执行效率,因此被引入大
渭河盆地处于黄土高原和秦岭山脉的夹持之间,地形条件特殊,盆地自形成后堆积了巨厚的松散沉积层,给此地的地质勘探工作增加了难度。相对于传统的地质钻孔法、反射地震法等勘探手段,被动源面波法利用背景噪声数据可以对不同尺度的地下结构进行探测,具有经济便捷、数据处理简单等优点,所以本文选择了被动源面波法中的空间自相关法(Spacial Autocorrelation即SPAC)和Aki公式法对渭河盆地的地下速
市场经济国家均将垄断协议视为一种严重危害经济的行为。垄断协议通过提高价格、限定产量的方式限制竞争,它破坏了公平的市场竞争秩序,从而最终导致市场经济运行的低效率甚至出现滞缓。为了消除垄断协议的消极影响,一项源于美国的反垄断法宽恕制度被设计出来并引发其他国家纷纷效仿。宽恕制度经过实践检验证明在发现和查处垄断协议时作用明显,主要表现在提高反垄断机构执法能力和效率,维护市场竞争正常秩序,保护市场主体正当行
绝大部分现有的轨迹跟踪控制研究成果都基于已知的理想目标轨迹,然而在许多重要应用领域(如导弹拦截,卫星追踪,电力系统用电量调度及匹配等)中理想轨迹未必可以事先准确得到,