论文部分内容阅读
粗糙集理论是一种刻画知识模糊性、不确定性和不完整性的有效数学工具。然而,经典粗糙集理论是基于严格等价关系的,在处理具有高维度、低样本和连续型等特点的基因表达数据时可能失效。邻域粗糙集作为粗糙集的扩展理论,适用于处理混合型(符号型和数值型)数据,正在被广泛应用于人工智能、数据挖掘、模式识别等诸多领域。针对混合型的肿瘤基因数据,本文基于邻域关系研究了邻域决策系统的不确定性度量方法,结合机器学习方法中的降维技术,基于邻域粗糙集模型提出了肿瘤基因数据的特征选择算法,并将其运用于肿瘤基因分类,通过理论分析和实验测试来进一步验证所提出算法的有效性。本文的主要研究内容包括三个方面:(1)对于连续型数据,传统的特征选择方法采用离散化处理,导致了具有分类能力的信息丢失从而影响分类精度。为此,通过邻域粗糙集模型中的邻域关系粒化连续型基因数据,以保留连续型数据的分类信息,提出了一种基于Fisher线性判别和邻域依赖度的基因选择算法。首先,Fisher线性判别方法被用于肿瘤基因数据集的初步降维,有助于降低后续算法的计算复杂度,得到候选基因子集;然后,在邻域决策系统中基于邻域精确度定义了邻域粗糙度,并将邻域粗糙度引入到传统邻域粗糙集的依赖度中,提出了邻域依赖度的计算方法,以度量邻域决策系统的知识粗糙性,由此给出了邻域决策系统中属性内部重要性和属性外部重要性,构建了基于邻域依赖度的邻域决策系统特征选择方法;最后,基于Fisher线性判别和邻域依赖度设计了肿瘤基因选择算法,有效剔除候选子集中的冗余基因,获取了最优肿瘤基因子集。在4个标准肿瘤基因数据集上进行仿真实验以验证该算法可以有效地选择最优肿瘤基因子集,且获得较高的分类精度。(2)为解决传统邻域粗糙集中基于评估函数单调性的启发式属性约简方法存在一定缺陷,不能获取更好属性约简结果的问题,提出了一种基于邻域决策熵的非单调特征选择方法。首先,在邻域决策系统中研究基于邻域熵的不确定性度量,定义了邻域可信度和邻域覆盖度,将其引入到决策邻域熵和邻域互信息概念中,以充分反映邻域决策系统中属性的决策能力,推导出它们的性质和这些度量之间的关系;然后,通过理论证明并分析决策邻域熵和邻域互信息的非单调性,给出属性重要性度量方法,设计了基于决策邻域熵的特征选择方法;最后,将其与Fisher score降维技术结合,在邻域决策系统中提出一种具有较低时空复杂度的基于邻域决策熵的启发式特征选择算法,有效降低维度并提高基因表达数据集的分类性能。在10个公开肿瘤基因数据集上的十折交叉验证的实验结果表明,该算法不仅大幅度减少了肿瘤基因数据集的维数,而且分类精度也优于其他对比的特征选择算法。(3)传统的基于粗糙集理论的知识约简方法大多是仅从约简的代数观点或信息论观点出发,研究属性对论域中分类子集的影响,没有实施更有效的度量机制,为解决此问题,提出了一种基于邻域近似决策熵的肿瘤基因选择方法。首先,利用属性代数定义与信息论定义之间较强的互补性,将邻域近似精度与邻域熵结合,定义了新的平均邻域熵;然后,给出了邻域近似决策熵的概念,以处理邻域决策系统的不确定性和噪声,以充分反映决策属性对条件属性子集的决策能力;最后,在邻域决策系统中,提出了一种基于邻域近似决策熵的肿瘤基因选择算法,以提高处理高维复杂基因数据集的分类性能。在7个公开肿瘤基因数据集上的仿真实验结果表明,该方法可以有效地选择具有较高分类性能的肿瘤基因子集。