面向生物数据的关联规则挖掘算法及其应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:woshilidefu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组和蛋白质组研究的进展,以及现代生物技术的快速发展,由高通量技术产生了海量生物数据,这为揭开生命奥秘提供了数据基础。生物数据种类丰富,高通量,维数高,具有异构易变的特性,远远超出传统的分析方法的能力,生物数据的分析成为当今生物学研究的瓶颈,对其处理、挖掘、分析和理解的要求日益迫切。目前生物数据分析中存在着一些问题,例如,数据分析采用的算法模型有越来越复杂的趋势,被用于数据分析的黑盒算法获得的分析结果难以作出生物解释等。而生物信息学研究的根本目的就是利用生物数据,解释生命现象,发掘生命规律。关联规则是一种重要的数据挖掘技术,利用该技术从生物数据中挖掘获得的模式即具有生物学上的意义(重要性),又具有数学上的重要性(可发现性),且结构透明,具有良好的可解释性。本文主要对面向生物数据的关联规则挖掘算法及其应用进行了研究,其主要研究内容包括:(1)多相关关联规则挖掘算法及其应用研究生物数据中蕴含着丰富的内涵,仅利用传统的关联规则挖掘,一些有意义的模式会被丢失而无法获得,为此,本文提出了一种新形式的关联规则一多相关关联规则,在给出多相关关联规则形式化定义的基础上,对有用多相关关联规则的挖掘准则进行了研究,并给出了一个挖掘算法,并且利用多相关关联规则对蛋白质结构数据进行了分析,从中得到了很多有用的规则,在其它两个数据集上也进行了实验,得到了一些新颖的知识。(2)利用定量关联规则分析蛋白质结构数据的研究1961年Anfinsen提出蛋白质分子的一级序列完全决定其空间结构的论断,对于这个假定,我们需要分析如下几个问题:不同的氨基酸对不同的蛋白质空间结构形成是否具有不同的倾向性?蛋白质的氨基酸序列是否是随机的?序列中是否存在着一些氨基酸共生模式?这些模式是否对不同空间结构的形成具有不同的倾向性?目前开展的大部分研究是基于氨基酸序列预测蛋白质各位点的空间结构,主要是定性研究,利用定量方法分析不同氨基酸对形成不同蛋白质结构的倾向性的研究却较少,本文提出利用定量关联规则分析蛋白质的氨基酸构成和蛋白质结构形成间的关联关系,获得了很多有用的规则,这些规则对人工合成蛋白质分子具有参考价值。(3)聚类和关联规则挖掘在基因表达数据分析中的应用研究由于基因表达数据具有高维低样本的特点,直接对基因表达数据进行关联规则挖掘,实际上是不可行的。为此,本文将聚类和关联规则挖掘相结合,首先对基因表达数据进行聚类分析,得到若干基因簇,实现了分析数据的降维,然后对每个基因簇中的表达数据进行离散化,将每个基因离散化为7个项目,然后进行关联规则挖掘,得到了大量的关联规则,得到的这些关联规则不仅提供了基因之间的调控方向,而且还提供了基因之间调控强度的信息。(4)从肿瘤基因表达数据挖掘分类规则的研究基于关联规则的分类研究是关联规则挖掘研究的一个热点,目前这方面也已经开展了大量的研究工作。由于肿瘤基因表达数据中的样本具有高维低样本的特点,所以很难直接应用传统的关联规则挖掘算法构建分类器,因此本文提出了一种直接从肿瘤基因表达数据挖掘分类规则的方法,这种方法首先从数据中抽取分类特征,然后基于分类特征产生分类规则,基于这些分类规则按照置信度最高的原则进行样本类别预测,实验表明,该方法不仅具有良好的预测精度,并且相对于黑盒算法来说,具有良好的可解释性。
其他文献
目的:探讨西宁地区重症胰腺炎的特点及诊治分析。方法:搜集2006年1月—2011年1月我院收治的18例重症急性胰腺炎病历资料,分析诊断与治疗效果。全部病例均给予胃肠减压,生命体
针对商用阻抗分析仪存在的价格昂贵、设备笨重等缺点,借助51单片机、AD5933芯片及辅助电路构建了一套便携式电阻抗测试系统。该测试系统可以在0.1~100kHz频率范围内以0.2~2V
近年来随着存储设备、传输和压缩技术的发展,数字视频以极高的速度增长。如何有效的管理这些视频成为一个急待解决的问题。常用的方案是发展自动分析技术从视频中提取“元数
本文通过对北京大学生的抽样调查,发现:1、电影作为一种渠道载体的特性已经变得十分微弱,而成为了一个单纯内容产品的趋势则非常明显。也就是说,电影在整个传播体系中的位置与各
大学生就业问题一直是社会关注的热点,随着大学毕业生人数的不断增加,金融危机的爆发,本来已经很紧张的就业形势变得更加严峻。本文主要论述大学生就业难的深层原因,并提出几点解
半数加减法是一种能够将部分加数舍弃,改用加数的“半数”做加数,与心算结合的速算法。“心算”(即边看加数的舍弃,边求出半数相加的结果)是半数加减法运算的主要手段。顺序是:从
AI并非一个独立的行业,商汤正加速卡位AI应用的主赛道。走出香港中文大学多媒体实验室,4年时间,商汤科技估值已达60亿美元,其副总裁柳钢形容,'发展速度以月当季度,员工数
期刊
<正>2008年2月7日是恩师、原上海市文史研究馆馆员、著名书法家李天马先生诞辰一百周年。年纪越老岁月似乎走得越快,忽忽间,先生离去竟已18年了。在与老师相识的27年间,有时