论文部分内容阅读
随着基因测序技术的快速发展,生物数据呈几何级数的速度增长,传统的生物实验受限于高成本和长周期等因素,如何在大规模的生物数据中运用生物信息学方法准确地找出有价值且具有规律性的特征显得尤为重要。近年来,对microRNAs(miRNAs)的研究有了巨大突破,其在生命活动中参与了细胞的生长、凋亡和病变等过程,因此深入研究miRNAs的序列、结构对理解细胞的这些调控机制是有着重要意义和理论价值。 本文提出了在互信息和联合熵的基础上对miRNAs进行关联模式挖掘,从miRNAs之间存在正负调控关系这两个不同方向分析其在生物体内的作用,本文的研究如下: (1)针对已有方法对miRNAs正相关研究的不足,忽略了对miRNAs在生物体内各个组织表达和对miRNAs之间信息交互多少的分析,提出一种基于信息熵的方法对miRNAs正关联模式进行挖掘。首先对现有的正关联Apriori算法进行改进,利用支持度约束对候选集进行删减,找出有兴趣的频繁项集,并利用改进的置信度计算方法在频繁项集中提取前后件相关性很强的正关联规则。在挖掘出的正关联规则中,利用miRNAs本身的属性,即miRNAs的成熟序列、种子区域和二级结构,以此作为基础计算miRNAs的综合相似度,并利用信息熵理论中的联合熵和互信息来分析miRNAs之间的关系,得出最有可能作用于生物体内同一组织并呈正相关的miRNAs,从而保证了在正关联上关系模式挖掘的准确性。在这个挖掘过程中,利用了豪斯多夫距离函数来对miRNAs进行二级结构相似度的度量,通过几何平均函数来对种子区域和成熟序列进行综合相似度计算,进一步用均方根函数对结构和序列进行总体相似度的衡量。 (2)针对在miRNAs现有研究中忽略了miRNAs在生物体各个组织内的表达关系还存在负相关的联系,以及对具有负调控关系的miNRAs之间存在信息交互的分析,本文提出一种基于信息熵的方法来对miRNAs负关联模式进行挖掘。首先对现有的负关联规则挖掘算法进行改进,通过支持度约束减少冗余且没有兴趣的负项集,采用皮尔逊相关系数来识别存在强负相关性的负项集,并利用提取正关联规则时所用计算置信度的方法来识别有意义的负关联规则。在发现的负关联规则中,通过miRNAs本身的属性来计算其综合相似度,采用信息熵理论中的联合熵和互信息来对负相关的miRNAs进行分析,判断是否是在生物体内同一组织并且其调控关系为负的miRNAs。 实验结果证明,本文的方法能准确地识别出生物体内正调控和负调控关系的miRNAs,为miRNAs在生物体内对重大疾病的诊断和治疗提供有价值的规律。