论文部分内容阅读
当代人类基因工程中最大的挑战之一就是定位和识别导致常见疾病的可疑基因。这个问题的困难之处一部分来源于传统的参数统计方法对于高维数据的处理效果不佳。多因子降维是一种在小样本上也能获得较好功效的分析基因-基因或基因-环境交互作用的方法,然而最初提出穷举分组法的计算时间复杂度随着基因位点数目增加的急剧增长而使得计算不可行。
本文首先叙述了多因子降维方法的产生背景,分析并提出了采用带elasticnet惩罚项的Logistic回归确定致病基因个数,然后再采用多因子降维算法,从而大大提高了算法的效率。最后通过理论分析和数据模拟实验,验证了算法的有效性。