【摘 要】
:
高通量测序技术的发展使得研究人员可以测量几乎所有的人类基因的表达水平。通常,基因数据的样本数量很小,远小于数据包含的基因的数量。在高维的基因数据中,仅有部分基因有
论文部分内容阅读
高通量测序技术的发展使得研究人员可以测量几乎所有的人类基因的表达水平。通常,基因数据的样本数量很小,远小于数据包含的基因的数量。在高维的基因数据中,仅有部分基因有助于识别目标疾病。为了选出这些具有识别能力的基因,特征选择是一种有效的方法。受试者工作特性(ROC)曲线作为一种评价分类性能的评价标准,在生物医学领域有着广泛的应用。由于在处理类别不平衡和代价敏感的数据时具有显著的优势,在辨别与疾病相关的基因(特征)时,经常使用ROC曲线这种稳健的评价标准。现有的一些基于ROC曲线的特征选择方法能够简单而有效的对单个特征进行评价。然而,这些方法可能无法找到真正的目标特征子集,因为它们缺乏有效的手段来减少特征之间的冗余性。消除特征之间的冗余性在机器学习中是必不可少的。特征的互补性分析正是一种消除特征之间冗余性的有效的方法。本文首先分析了ROC曲线相关背景知识以及研究意义,并介绍了一些现有的基于ROC曲线的特征选择方法在生物信息学领域中的应用。之后分析这些特征选择方法在分析处理基因数据上所存在的不足。最后,提出一种新的基于ROC曲线下面积(AUC)及特征互补性分析的特征选择方法。本文提出了一种新的特征之间互补性的度量方法,即在不同的二维特征空间上,利用错分类实例与其异类最近邻之间的平均曼哈顿距离作为判定特征之间的互补性的标准。如果在某一特征维度上,每一个错分类实例与距它最近的异类实例,在另一特征维度上都具有更大的距离,那么这两个特征就被视为互补特征。随后,本文提出了一种新的基于ROC分析的过滤式特征选择方法。该方法采用一种启发式搜索策略选出具有最大互补性的最优特征。在一组微阵列基因数据集上的实验结果表明,使用我们所提出的方法选出的特征子集能够使分类器的平衡错误率达到最低,并且选出的特征子集所包含的特征数量最少。由此我们得出结论,与其他基于ROC的特征选择方法相比,我们的方法能够选出更少的关键特征,并且有效的提高分类器的分类性能。
其他文献
河流—冲积相地层层序形成和发育影响因素较多,相类型复杂、相带窄、相变迅速。本论文松辽盆地大庆长垣地区扶余油层一二段为目的层,应用沉积过程-响应原理,通过分析构成河流
目的:即刻胸肌下假体乳房重建是目前应用较为广泛的一种重建术式,这种术式的关键是在假体表面有足够的软组织覆盖,所以我们提出了一种新型的利用胸大肌-胸外侧融合筋膜系统覆盖假体(双平面)在早期乳腺癌患者进行即刻乳房重建的术式,我们的目的是比较双平面乳房重建与传统联合部分背阔肌覆盖假体在手术操作、术后安全性以及满意度等层面的特点,进一步确定双平面进行即刻乳房重建在临床上的可行性。方法:本研究回顾性分析了2
随着高校体育教学改革的不断深化,公共体育选项课的开展得到了快速的普及和发展。而在高校公共体育选项课教学中,排球这项运动由于其自身的特点逐渐受到同学们的喜欢。可是由
穿浪双体船以高航速在海上航行时,会受到复杂的海浪环境的扰动,从而造成船体的剧烈运动,这对于船上人员及设备的安全有着很大的威胁,严重时会对船体本身的结构造成损害,若船
数学合作学习作为一种教学方法,深深受到教学理论影响,在加上数学学科教学中有一定的特点,在实际教学中,导致很对高中数学教师也存在很对困惑,如:合作学习的实施方法,教学内
国内外已针对软岩做了大量的研究与实践工作,但都没有从根本上解决其工程稳定性难以控制的问题。本文从改变物化型软岩自身结构性质的角度出发,采用电化学强化改性方法对物化
以有机地球化学的理论和方法为基础,研究排碧剖面和罗依溪剖面的花桥组的地球化学特征。根据常规地球化学实验方法,研究了两个剖面的花桥组灰岩的有机质丰度、有机质类型和热
克拉玛依油田七东1区克下组油藏是典型的砾岩储层油藏,特殊的沉积环境和地质构造背景导致储层具有岩性、物性复杂多变,非均质性严重等特点,开采难度极大。经过五十多年的开发
随着我国人民物质水平的提高,皮料制品的需求日益增加,皮料卷边工艺越来越得到重视。但目前卷边过程都是人工和机器相结合的生产方式,为了解决当下操作人员卷边效率低下、工
目的:选取经病理科常规ARMS法或Ventana IHC技术检测后EGFR、ALK及KRAS为野生型的早期术后肺腺癌样本,应用下一代测序(NGS)技术检测少见驱动基因HER2、MET、BRAF及RET等更多突变形式,分析其与临床病理特征及免疫指标PD-L1表达和TMB的相关性,探索PD-L1表达与TMB的相关性及二者与临床病理特征的相关性。材料及方法:回顾性收集2016-2017年间经天津医科大学