论文部分内容阅读
生物信息学是连接生物数据与医学研究的桥梁,是随着人类基因组计划的启动而兴起的一门新的交叉学科。基因组学、蛋白质组学和DNA芯片技术的发展,使得同时观测成千上万的基因表达水平成为可能,如何从这些海量数据中挖掘出有用的信息,发现基因的功能具有重要的研究意义。缺失值处理和聚类分析是数据挖掘中的关键步骤。论文首先分析了常用缺失数据处理方法的优缺点,针对K-近邻(KNN)法插补速度快但精确度不高,支持向量回归(SVR)法插补精度高但相当耗时等不足,采用KNN与SVR相结合的方法实现缺失值的填充处理,通过对含有缺失值的酵母基因表达数据的实验结果表明,本文算法能够在较高插补精度的基础上有效地降低插补时间。其次,论文针对现有基因表达数据聚类算法存在的误判、聚类不精确等缺点,利用支持向量聚类算法(SVC)寻找最优分类超球实现对数据集的有效划分;并在现有的基于类内距离最小的聚类有效性评估准则的基础上,提出了一种加入类间信息的评价方法,通过模拟退火算法寻找SVC算法中的最优核函数参数和惩罚因子,以使聚类算法有更好的推广能力。对酵母细胞生长周期的表达数据集的仿真实验结果表明,SVC有较高的聚类精度,在新的聚类算法有效性评估标准下,模拟退火算法相对其他参数寻优法,能够更快更好地得到最佳参数。