论文部分内容阅读
microRNA简称miRNA,是一类长约22核苷酸(nt)的非编码的单链RNA分子,由约70nt的前体miRNA(pre-miRNA)经Dicer酶剪切而来。miRNA参与生命过程中一系列的重要进程,包括发育、造血、器官形成、凋亡和细胞增殖,甚至是癌症发生。目前人类基因组中已确认的miRNA约500个,其中至少有200多种miRNA序列与癌症发生有关。RNA干扰作为近年来的重大科学发现,如今对于这种起抑制蛋白合成作用小分子RNA的研究已成为分子生物学领域的热门。从研究利用RNA干扰技术来阻滞癌症等疾病开始,越来越多的线索表明miRNA与癌症之间存在着密切的关系。联合假设检验(Integrative Hypothesis Test,IHT)和双线性分析(Bilinear Analysis)近来被提出用于研究假设检验,分类和特征选择。双线性分析基于多元判别分析,将原有的基于向量的判别分析推广到基于矩阵的判别分析。本文除了将IHT用于识别miRNA在肺癌和慢性阻塞性肺病Chronic Obstructive Pulmonary Disease(COPD)上的差异表达之外还提出一种基于bootstrapping的方法来改进IHT给出的来源于小样本和缺失值问题,并提高基因排名的可靠性。我们在GEO公开肺癌数据集GSE24709的实验中,已经被报道过的14个差异表达miRNA在单个基因分析的枚举结果中重新得到了确认。除肺癌数据集之外,还利用同时具有癌和癌旁数据集GSE6857肝癌数据集对双线性分析方法进行了研究。通过分析,miRNA对基因的差异表达影响也通过枚举之后得到的p值,分类错误率和相关系数得到了检验,可以借助这些信息进一步识别出具有核心功能的miRNA。另外,文中除了对单个基因进行研究外,将基因两两组合的研究进一步发掘了miRNA之间的联合关系,发现潜在的连接团对两类疾病的区分有一定的联合作用。最后我们通过生物路径分析和相关文献查阅,发现通过联合检验得到的结果在已有研究中得到印证。