互信息特征选择的研究及在代谢组学中的应用

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:sad_pacific
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划取得的发展,对生命现象的科学研究也受到了人们的广泛关注。它既是研究各种生命活动的现象和本质,又研究生物之间、生物与环境之间的相互关系。其中代谢组学的研究,使人们能够从代谢物质和代谢途径上了解代谢的机制并且找出某些疾病的原因,提供预防与诊断治疗的措施。提取生物标记物是一研究的重点和难点,备受研究人员的关注。 近几年来,数据挖掘技术广泛应用在数据预处理阶段的数据分析方法中。在特征选择的评价准则中,互信息是能够用来衡量两个变量之间的关系的信息度量方法。相比于其他的特征评价准则,它对训练数据的离散值不敏感,且不容易受噪音数据的影响,更具健壮性。近几年来,数据挖掘方面的研究专家对互信息为基础的特征选择进行了大量的研究。在本文中,在动态互信息的基础上,结合mRMR和动态样本空间,并提出了新的特征选择方法;在能提高分类性能的特征中,优先选择具有最大的mRMR值的特征。为了验证算法的有效性,在本文中使用5个公共数据集跟现在比较常用的特征选择方法进行了比较,各项参数表明本文改进的方法在准确率和AUC值上都取得了比较好的效果。 最后,在本文中将该算法应用到老鼠患者肝癌的代谢组学数据中,从中提取肝癌标记物。实验结果表明改进的算法所提取的特征所建的分类模型分类效果比较不错,且不存在过拟合现在。同时,对提取的部分特征做了统计学分析,结果表明改进的算法提取的特征具有生物学意义。因此,本文改进的特征提取方法是一个好的特征选择方法。
其他文献
在生物数学领域中,研究生物老化规律的方法和手段层出不穷。Noisy Penna模型是2006年元月由P.Biecek和S.Cebrat基于Penna模型提出来的,它很好地解释了生物的老化现象。和Penna模型不同,在Noisy Penna模型里不再有明确的个体所能承受坏基因的上限T,而代之以不同时刻个体遭受不同的内外生存压力。 本文共分四章。第一章从总体上对生物数学模型和生物模拟模型的研
学位
部分线性模型是一种重要的统计模型.本文考虑了时间序列数据下的部分线性模型的置信带构造问题.首先,本文给出了关于核函数以及时间序列模型的一些背景知识.然后,我们利用核函数给出了构造置信带所需要的估计.接着,我们使用前面所给出的估计得到了模型线性部分和非线性部分的联立置信带,且置信带的收敛是渐进正确的,并利用置信带解决了模型中的假设检验问题.最后,我们给出一个具体的模拟图对估计效果进行检验.
学位
偏序集的Sperner理论,主要研究偏序集的Sperner性质、LYM性质、匹配性质和链分解性质等.对一般偏序集的Sperner型性质,从匹配的观点来看最强的性质是正规匹配,而从链分解的观点看最强的性质是套链分解.有套链分解的偏序集未必具有正规匹配性质,而对秩单峰的偏序集,Griggs于1977年提出正规匹配蕴含套链分解这一猜想.本文主要研究偏序集的套链分解,全文共分四章. 第一章介绍S
学位
在工程应用中,通常用对象的多个特征构成的高维向量来描述这个对象。在线性赋范空间中,对象间的相似性经常由差向量的l1范数来表征。比如在人脸识别系统中,人的面部特征就可以由高维向量来表示,然后构建l1范数优化模型进行求解来达到对人脸识别的目的。所以l1范数优化模型的求解也就变得十分重要。 本文研究的是一类线性约束的l1范数优化问题。通过引进二阶锥约束,可以将目标函数转化为光滑函数从而将原问题
学位
本文主要研究随机线性二次(LQ)最优控制问题的求解问题. 在假设随机线性二次最优控制问题为均方稳定的前提下,该问题可以通过解一个随机代数Riccati方程(SARE)来解决,而SARE又可以转化为一个半定规划(SDP)问题.本文利用这个转化过来的SDP问题的特殊结构,提出了一种更加有效的求解方法. 本文首先介绍了随机线性二次最优控制问题的背景和国内外的研究情况,然后简要的介绍半
学位
对简单图(有向或无向)G=(V,E),子集F属于V,如果由V\F(或E\F)导出的子图不含(有向或者无向)圈,则称F是G的反馈点(或边)集。所有反馈点(或边)集的最小的阶数记为fv(G)(或fa(G)),称之为G的反馈点(或边)的数目。 人们重视确定图的最小反馈点集问题,是由于在诸多领域内它都具有广泛的应用。例如,波长改变器在光纤网络中的安装问题;广播风暴在网络传输过程中的避免问题;证明
学位
文本特征词提取一直是信息检索领域中的热点问题。传统的特征词提取方法均需要引入比对文本,即词典作参照才能取得良好的提取效果。近年来,随着学科的交叉渗透,M.Ortuno等人受物理中无序量子统计系统谱的分层统计分析过程的启发,于2002年首次将单词的空间分布考虑进来,提出了一种无词典文本特征词提取模型;同年,Montemurro等人将信息熵运用到特征提取词提取上,也能在无词典的情况下取得了良好的效果。
学位
本文主要研究基于模型的无导数方法。基于模型的无导数方法通过对目标函数逐次在一定范围内对目标函数求最优,最终实现全局上的最优。在局部范围上的每次迭代都只需要目标函数值的信息,而无需计算或者近似任何的导数信息。 本文的主要工作分为两部分:对等式约束优化问题,提出了基于模型的无导数增广拉格朗日方法和相应的算法,给出了算法的全局收敛性结果;然后又将基于模型的无导数增广拉格朗日方法做适当的调整,在
学位
自由表面流动问题普遍存在于化工、冶金、航空航天、材料科学等领域中。对自由面流动问题的研究具有十分重要的工程价值和学术意义。自由表面流动问题是流体力学中一种重要的流动问题,而液滴撞击固体平壁属于一类典型的自由表面流动问题。数值模拟是研究和解决此类问题的主要方法之一。本文对液滴(水)撞击固体平壁的过程进行了数值模拟。 本文首先确定了液滴撞击平壁模型的具体流动模型,并在二维情况下,建立和简化了
学位
无导数优化在优化领域中具有非常重要的作用,且在实际中的应用也日益广泛。本文主要针对非单调无导数的增广拉格朗日方法进行研究。该方法属于直接搜索法的范畴,并且在相应的算法迭代中只需要函数值信息,而不需要计算或近似任何的导数信息。与此同时,还加入了非单调的思想,在不需要目标函数值单调减少的前提下,即可保证算法的收敛性。 本文的主要工作分为两部分,情况如下: 1.第二章讨论的是用非单调
学位