面向肿瘤基因数据的邻域粗糙集特征选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:dxcnet2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是一种刻画知识模糊性、不确定性和不完整性的有效数学工具。然而,经典粗糙集理论是基于严格等价关系的,在处理具有高维度、低样本和连续型等特点的基因表达数据时可能失效。邻域粗糙集作为粗糙集的扩展理论,适用于处理混合型(符号型和数值型)数据,正在被广泛应用于人工智能、数据挖掘、模式识别等诸多领域。针对混合型的肿瘤基因数据,本文基于邻域关系研究了邻域决策系统的不确定性度量方法,结合机器学习方法中的降维技术,基于邻域粗糙集模型提出了肿瘤基因数据的特征选择算法,并将其运用于肿瘤基因分类,通过理论分析和实验测试来进一步验证所提出算法的有效性。本文的主要研究内容包括三个方面:(1)对于连续型数据,传统的特征选择方法采用离散化处理,导致了具有分类能力的信息丢失从而影响分类精度。为此,通过邻域粗糙集模型中的邻域关系粒化连续型基因数据,以保留连续型数据的分类信息,提出了一种基于Fisher线性判别和邻域依赖度的基因选择算法。首先,Fisher线性判别方法被用于肿瘤基因数据集的初步降维,有助于降低后续算法的计算复杂度,得到候选基因子集;然后,在邻域决策系统中基于邻域精确度定义了邻域粗糙度,并将邻域粗糙度引入到传统邻域粗糙集的依赖度中,提出了邻域依赖度的计算方法,以度量邻域决策系统的知识粗糙性,由此给出了邻域决策系统中属性内部重要性和属性外部重要性,构建了基于邻域依赖度的邻域决策系统特征选择方法;最后,基于Fisher线性判别和邻域依赖度设计了肿瘤基因选择算法,有效剔除候选子集中的冗余基因,获取了最优肿瘤基因子集。在4个标准肿瘤基因数据集上进行仿真实验以验证该算法可以有效地选择最优肿瘤基因子集,且获得较高的分类精度。(2)为解决传统邻域粗糙集中基于评估函数单调性的启发式属性约简方法存在一定缺陷,不能获取更好属性约简结果的问题,提出了一种基于邻域决策熵的非单调特征选择方法。首先,在邻域决策系统中研究基于邻域熵的不确定性度量,定义了邻域可信度和邻域覆盖度,将其引入到决策邻域熵和邻域互信息概念中,以充分反映邻域决策系统中属性的决策能力,推导出它们的性质和这些度量之间的关系;然后,通过理论证明并分析决策邻域熵和邻域互信息的非单调性,给出属性重要性度量方法,设计了基于决策邻域熵的特征选择方法;最后,将其与Fisher score降维技术结合,在邻域决策系统中提出一种具有较低时空复杂度的基于邻域决策熵的启发式特征选择算法,有效降低维度并提高基因表达数据集的分类性能。在10个公开肿瘤基因数据集上的十折交叉验证的实验结果表明,该算法不仅大幅度减少了肿瘤基因数据集的维数,而且分类精度也优于其他对比的特征选择算法。(3)传统的基于粗糙集理论的知识约简方法大多是仅从约简的代数观点或信息论观点出发,研究属性对论域中分类子集的影响,没有实施更有效的度量机制,为解决此问题,提出了一种基于邻域近似决策熵的肿瘤基因选择方法。首先,利用属性代数定义与信息论定义之间较强的互补性,将邻域近似精度与邻域熵结合,定义了新的平均邻域熵;然后,给出了邻域近似决策熵的概念,以处理邻域决策系统的不确定性和噪声,以充分反映决策属性对条件属性子集的决策能力;最后,在邻域决策系统中,提出了一种基于邻域近似决策熵的肿瘤基因选择算法,以提高处理高维复杂基因数据集的分类性能。在7个公开肿瘤基因数据集上的仿真实验结果表明,该方法可以有效地选择具有较高分类性能的肿瘤基因子集。
其他文献
霍乱是一种流行性的肠道感染疾病,人体感染后会引起剧烈的水样腹泻、脱水痉挛、甚至死亡等症状,该疾病传播快、病死率高,至今仍是发展中国家人民生命安全的巨大威胁。霍乱弧
我国致密油气资源十分丰富,已成为国内能源供应的重要组成部分。目前国内外针对裂缝性致密油气藏开发通常采用缝内暂堵转向压裂技术以形成复杂裂缝网络,沟通近井区域油气富集
非线性光学成像可以实现对样品的无标记和无接触的成像,同时又具有空间分辨率高、层析成像和穿透深度大等特点,凭借优异的特性使其在生物医学、生命科学、材料科学等领域研究
在生物医学方面,利用DNA微阵列技术可获取大量的基因表达谱数据,通过数据分析,构建有效的肿瘤分类模型,对肿瘤的临床诊断和治疗具有重要的研究意义和应用价值。现今已获得的
在低温高压环境下水合物的形成不仅会影响钻井液的流变性,增大摩阻压降,还可能在管壁上沉积,甚至进入连接器内的空隙,堵塞防喷器和节流压井管线,给井控和钻井作业带来严重威
隐匿身份侦查是刑事侦查实践中经常使用的一种特殊的侦查手段,在侦破多发性、复杂性、团伙性、集团性组织犯罪等案件中发挥着十分重要的作用。而长期以来,隐匿身份侦查只是由侦查机关的内部规定进行规制,缺乏有效的外部监督和制约机制,侦查机关拥有绝对的自我决定权,完全游离于法律之外,容易导致侦查权的肆意滥用,对公民的合法权益造成严重侵犯。2012年修订的《刑事诉讼法》首次将关于隐匿身份侦查措施纳入法律条款当中,
适度出砂是一种有选择、有限度的防砂,让油井以尽可能高产而又不会使地层塌陷,不会对生产设施造成过大伤害的生产策略。要实现适度出砂生产,就必须将油井出砂控制在合理范围
在当今这样一个全球化的社会中,各种跨文化交际越来越普遍。交替传译作为一种连接不同语言文化的桥梁,对促进各种交流活动起到了至关重要的作用。译员通常需要能够迅速并且有
如今的建筑物向着样式多样化,功能多样化演进,建筑物识别作为场景图像识别下的一个重要分支同时也是计算机视觉领域和机器人学领域的一个非常重要且极具挑战的研究内容.如何利用计算机思维使其能自动理解建筑物图像、并进行有效地识别,借机服务于大数据环境下的图像检索,成为了当下急需解决得难题。建筑物识别的一大关键技术在于特征提取,但是传统特征具有非常大的局限性,人为特征工程耗时耗力且对专业领域知识要求高,提取的
本文中提到的“塔斯基的真理理论”是特指塔斯基在“真理”领域方面所做的一系列工作。而文中论述的塔斯基定理和塔斯基的真理定义正是这些工作的重要组成部分。塔斯基定理俗