论文部分内容阅读
随着高强度的筛选技术、化学技术以及测序技术的出现,基于实验研究而形成的数据信息已经越来越多,尤其是在基因表达数据和原子团簇问题中。基因表达数据的特征选择问题和原子团簇问题都是化学信息学中的两个基本问题。原因在于:一是基因表达数据的分析可以给疾病的诊断带来方便。二是,可以通过分析团簇的结构来分析原子的结构。由于这两个问题都已经被证明是NP-难问题,以往的研究表明,对于NP-难问题来说,不太可能采用多项式内的复杂度的算法来求解这些问题。因此,在本文中主要采用两种进化算法,分别是生物地理学算法和微分进化算法解决基因表达数据的特征选择问题和原子团簇问题,具体内容如下:(1)提出了一种基于生物地理学算法的多目标离散算法,首先采用Fisher Markov selector来选择六十个最高分数的特征。接下来将选择出来的六十个特征将会作为多目标离散生物地理学算法的初始特征。再者,受到遗传算法的启发,提出了离散的迁移模型和变异模型。结合提出的离散生物地理学算法,研究了如何使用非支配排序的方法和拥挤距离方法来选择特征选择的两种目标:最小子集和最大精度,最终提出多目标离散生物地理学算法。为了说明算法的优越性和高效性,十个基因表达数据被使用,从实验结果来看,提出的算法不管是从精度角度,还是从特征子集的角度都是比粒子群算法,遗传算法以及一些改进的支持向量机要有竞争力。(2)提出了一种基于微分进化算法的多目标离散算法,该算法主要也是在研究如何选择合适的特征来分类基因表达数据问题。首先使用Fisher Markov selector来选择固定最高分数的特征。选择出来的特征将会作为多目标离散微分进化算法的初始特征。其次,知道标准的微分进化算法是一个用来求解连续优化问题的算法,它的编码是不适合求解离散问题的。在本文中,提出了离散的变异模型。该模型主要的目的是平衡算法的开采性和挖掘性。其次,结合提出的离散微分进化算法,研究了如何使用归一化目标值总和和多样性选择的方法来选择个体,最终提出多目标离散微分进化算法。值得说明的是,提出的算法同时也对支持向量机的两个参数进行优化。为了说明算法的优越性和高效性,十个基因表达数据被使用,从实验结果来看,提出的算法不管是从精度角度,还是从特征子集的角度都是比其它的离散微分进化算法和其它的进化算法要有竞争力。(3)提出一种新的微分进化算法用来求解原子团簇问题和函数优化问题。改进的微分进化算法主要从变异规则和参数设置两个部分来考虑。对于变异规则,使用了两种常用的变异规则分别是:DE/rand/2/bin和DE/rand to pbest/1/bin。为了平衡这两个变异规则的性能,使用概率选择的方法来选择这两个变异规则,值得注意的是对于一个个体在一次迭代中只选择一个变异规则。对于参数设置,知道标准的微分进化算法对于F和CR值都是常数。然而,这样的参数设置特别容易使得算法出现收敛过慢或者陷入局部最优解这些常见的问题。并且对于不同的问题事实上所需要的参数设置也是各不相同的。针对这一问题,提出了自适应的参数设置方法,该方法是记录算法上一次迭代的结果来判断参数设置是否成功,然后根据成功率来重新生成下一次迭代中种群中个体的参数。总之上述的改进策略都是为了平衡算法的开采性和挖掘性。从实验结构来看,提出的算法还是非常有竞争力的。