人类RNA聚合酶Ⅱ启动子识别研究

来源 :同济大学理学部化学系 同济大学 | 被引量 : 2次 | 上传用户:amenking34875627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
启动子的识别是基因识别的重要组成部分。对启动子区的认识,不仅有助于实验室分析研究,而且还可以为人类认识全基因组功能、基因表达调控机制以及人类疾病与启动子多态性或突变的关系提供很大的帮助。 本文旨在对人类RNA聚合酶(POL)II启动子数据进行识别分类并提高识别的准确率。我们将创新的编码方法应用在人类启动子序列编码中,建立并使用合适的共识模型,使用支持向量机(SVM)的方法对启动子数据进行分类并提高了启动子识别的准确率。 首先,我们从真核生物启动子数据库(EPD)以及非启动子数据库中得到用于分类研究的DNA启动子序列数据及非启动子序列数据。正、负数据集均分别被分成5份和10份,用于5重(5-fold)及10重(10-fold)交叉验证。另外,我们还从转录起始位点数据库(DBTSS)中得到了由实验得出的人类染色体启动子数据,准备用于后续的研究。 然后,在对数据进行处理后(包括保证数据的非冗余性等),对碱基数据进行编码、选择合适的参数及编码方法。这是本研究的重点和难点。根据采用编码方式的不同,将之分为三步。 第一步,本文采用了基于知识的统计编码方法,并将此方法进一步扩展成六种子编码方式,分别是:单碱基统计特征编码、相邻双碱基统计特征编码、隔一位的双碱基统计特征编码、隔两位的双碱基统计特征编码、隔三位的双碱基统计特征编码以及相邻三碱基统计特征编码。编码后在SVM中进行启动子识别,使用10-fold交叉验证的准确率达到了89.68%,灵敏性在86.24%~90.11%,特异性在85.91%~98.35%,与其他利用SVM进行启动子识别的工具相比,均有5%左右的提高。 第二步,本文采用了CpG编码和五联体(Pentamers)编码,从不同的角度对人类RNA POL II启动子序列进行编码,提取变量信息,找出预报结果最佳及搭配最合理的编码方式用于后面的研究。 第三步,本文还尝试了一种新的编码方法——模式字典(Pattem Dictionary)的编码方法(由本实验室开发),并且针对启动子数据的特点,将ATCG四碱基两两结合,扩展成十六种字符进行编码,以增加数据的特征变量。 再次,基于上述编码方法的识别结果,根据编码方式的不同、样本选择的不同、核函数选择的不同等等,我们建立出不同类型成员子模型的共识模型,并用双层SVM进行识别分析。由于共识模型考虑了各子模型的独立性和模型之间的差异性,发挥了各模型之间的互补优势,从而提高了最终的识别准确率。 最后,我们将优秀的识别模型及共识模型的思想应用到人类22号染色体启动子数据的识别中,识别准确率达到了90.98%。
其他文献
学位
学位
有机电致发光(EL)是近年来国际上平面显示领域的一个研究热点。有机电致发光器件具有低压驱动、高亮度、高效率以及能实现大面积彩色显示等优点。随着EL技术的发展,电子传输材
盆栽试验研究了不同培养条件(土壤与河沙)下,3种施Cd水平(0、5、50 mg kg-1)对菌根玉米生长、根系侵染率及重金属Cd吸收的影响。结果表明:施Cd水平显著影响玉米吸Cd能力。随C
We Media自媒体联盟,成立于2013年4月份,目前拥有自媒体成员300余位,覆盖用户5000万,横跨多个垂直行业,是国内最大的自媒体联盟。传统财经媒体人开始自媒体生涯,对传统产业及
摘 要: 在新媒体浪潮的影响下,新媒体在高校得到极大推广和运用,成为学生舆情传播的主流方式。但是在高校运用新媒体传播舆情的过程中,因缺少正确的理念模式,QQ、微博、微信等新媒体有沦为传播工具的趋势,舆情传播效率和效果大打折扣。本文将重点探讨如何运用互联网思维指导高校新媒体的舆情传播工作,提高高校引导和管理学生舆情的能力,增强新媒体环境下舆情传播的可控性,构建和谐的校园舆情环境。  关键词: 互联
海洋微生物代谢产物研究是近年来国际上新兴的研究课题。海洋微生物由于特殊的海洋环境,有独特的代谢途径,能产生结构独特,骨架新颖的各式各样次级代谢产物。海洋微生物活性物质
超级电容器为一种新型的优良储能器件。与传统静电电容器相比,超级电容器具有更高的能量密度;与电池相比,具有更大的功率密度。超级电容器具有瞬间释放特大电流、充放电效率高、循环寿命长等特点,从而在世界范围内引起了极大关注。超级电容器的研究,主要集中在高性能电极材料和电极的制备上。本文选定廉价的氧化锰作为超级电容器的电极材料,结合多种电化学研究手段和材料研究测试方法,系统地研究了超级电容器的材料制备、电解
本文通过对荣华二采区10
期刊
用于OLED(Organic Light Emitting Diodes)的磷光材料主要包括一些重金属如铱、铂等的配合物,这些配合物中心离子d轨道上强烈的自旋轨道耦合导致单重态和三线态能级的混合而出