【摘 要】
:
高维数据中存在着大量的无关和冗余信息大大影响和限制了学习模型的性能,对学习模型的时间和空间复杂度提出了更高的要求。特征选择作为机器学习和模式识别的重要组成部分,能
论文部分内容阅读
高维数据中存在着大量的无关和冗余信息大大影响和限制了学习模型的性能,对学习模型的时间和空间复杂度提出了更高的要求。特征选择作为机器学习和模式识别的重要组成部分,能够有效的挖掘出数据中的有效信息,在降低数据规模的同时提高学习模型的泛化能力。本文主要从数据中变量间关系的度量和特征选择模型两个角度进行特征选择的研究工作。首先对不同度量在特征选择方法中产生的效果进行研究;然后重点对信息论度量进行研究,提出多种不同的有监督和半监督特征选择方法。其中,为了充分利用有标注和无标注数据,重点研究基于信息论度量的半监督特征选择方法。本文的研究工作主要分为如下几个方面:首先,针对相同特征选择模型在应用不同度量时,选取的特征的子集往往有较大的差异性,并且基于相同的度量的特征选择方法在不同数据集上的效果也存在明显的差异的问题,选取当前特征选择工作中具有代表性的多种线性和非线性度量标准,分别将选取的度量应用于基于相关性的快速特征选择方法中,并选取多种常用数据对上述差异化进行实验研究。其次,为了增强特征选择方法对数据中变量间关系的度量能力,引入可以同时对线性、非线性或非函数关系进行度量的最大信息系数度量。基于该度量标准提出了可以同时度量特征相关和冗余的新的评价函数;同时,基于最大信息系数度量提出一种新的搜索策略。基于提出的评价函数和搜索策略,提出了 mMIC_FS有监督特征选择方法。最后,在对信息熵和互信息等基本概念研究的基础上提出了归一化互相关无监督度量标准。通过融合互信息和提出的互相关度量,提出了一种半监督相关和冗余度量标准。基于提出的度量标准,分别基于相关-冗余和层次聚类思想提出两种不同的特征选择方法,同时利用标注数据和无标注数据进行特征选择。
其他文献
随着钛领域高新材料技术的发展,钛制品对高品质海绵钛的质量要求越来越高。而海绵钛中的杂质含量是反映海绵钛质量和还原蒸馏水平的一项重要指标,杂质的不均匀分布,使得海绵钛分成了很多等级钛,所以杂质的分布也是影响海绵钛等级划分的一个重要因素。要控制杂质的含量必然要弄清杂质在生产中的具体来源和去向以及杂质的分布情况,但目前研究者仅对杂质的引入进行了定性研究,而从未对杂质的投入和产出进行过定量研究分析;而有关
随着电网规模不断增大,大量电网数据批处理已成为急需解决的问题,因此,能否提供具有良好自动化开放功能已经成为衡量电力系统数值仿真软件的重要标准之一。与此同时,考虑到数
钢铁业作为工业脊梁,是国家强盛之本,民族复兴之魂,工业发展之基。近几年在相关政策扶持和钢材市场回暖的正向拉动下,我国钢铁制造领域得到了较快发展,但仍存在大而不优、大
生态农庄是生态旅游和生态农业互相结合和交融的新型经营形态,既有利于农业的可持续发展,又开创了旅游业的新格局。生态农庄历经30多年的发展,近年来,以其良好的经济、社会、
纵振换能器具有高效大功率的特点,弯曲振动辐射体具有低辐射阻抗和大辐射面积等特点,因而由两者组成的纵弯复合超声辐射系统在实际中广泛应用。纵弯复合超声辐射系统前端的辐
生物群落中,物种间存在着各种复杂的相互作用,其中,种群之间的捕食关系一直以来都是生物学家和数学家研究的重点.本文在齐次Nenmann边界条件下,利用偏微分方程和非线性分析理
内蒙古农牧交错带的研究在生态可持续发展研究中处于重要地位,对于我国生态文明建设有着重要意义。本论文以内蒙古农牧交错带典型县域乌兰察布市化德县为案例,运用文献研究、调查研究、归纳总结、实证研究等研究方法,结合化德县生态演变历程进行系统的调查分析和归纳总结。运用生态足迹模型,对化德县生态足迹值和生态承载力值进行计算和分析,并在此基础上得到了生态赤字、生态压力。生态足迹多样性等指标,对化德县生态可持续发
不相交线性码在具有良好密码学性质的密码函数的构造中扮演着重要角色。本文主要研究了如何快速高效地生成大量不相交线性码,以及如何利用不相交线性码构造S盒。取得以下研究
喜马拉雅成矿带内发育有大量金、锑、铅、锌、银矿床及钨锡铍稀有金属矿床,并以铅锌及钨锡铍成矿规模最为巨大。吉松铅锌矿床位于喜马拉雅成矿带内的北喜马拉雅穹窿带东段的错那洞穹窿盖层中。通过对吉松矿区地质填图、地质剖面测量、地球化学和物探等工作的基础上,结合流体包裹体、S-Pb同位素,硫化物微量元素及Ar-Ar定年等工作,对吉松矿体的物质来源及矿床成因做了研究,建立勘查模型进行成矿预测。吉松铅锌矿床为中低
急性髓系白血病(Acute myeloid leukemia,AML)是一种高度异质性血液恶性疾病,表现为原始或幼稚髓系细胞克隆性增生,正常造血受抑,外周血中白细胞出现质和量的异常、红细胞和血小板减少,并在体内各组织、器官(如肝、脾、淋巴结)出现广泛的白血病细胞浸润。目前,有许多新研制的化疗药物用于AML治疗,提高了疗效,延长了患者的生存期,但AML化疗耐药仍是临床治疗的难点,患者易复发难治愈。因