论文部分内容阅读
癌症是影响人类健康的主要疾病之一,有着极高的死亡率,对癌症的预防和治疗已成为全球科学家关注的焦点.研究表明,癌症是一类复杂的基因疾病,因此研究癌症基因表达谱、选取信息基因是我们寻找癌症相关基因、发现癌症基因表达特征的直接手段.本文第一部分主要针对基因表达谱数据维数高而样本少、噪声冗余而信息基因少的特点,首先利用离散度分析对结肠癌基因表达谱数据集进行特征的筛选.其次通过对基因之间相关性的分析,设计出向量分类算法,进一步提取特征基因,使得用于分类的基因数目进一步缩小.最后,分别利用支持向量机分类方法和势函数分类方法在上述特征提取的基础上对结肠癌数据集进行分类.通过对分类结果正确率与分类所用时间的统计,可以看到支持向量机方法对于结肠癌数据集的分类具有较好的效果.文章第二部分对函数集vc维这一描述学习机器复杂性的重要概念进行探讨,对于n维空间中性指示函数集合的VC维是n+1这一结论,本文在文献[1,2]的基础上对证明方法进行了改进,给出了一个完整的更具一般性的代数方法的证明.