字符序列的解析数论模型及其在生物信息学中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:zhangwansheng123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学领域内的许多课题可以抽象成字符序列处理问题,例如,基因识别、蛋白质二级结构预测等.字符序列所能提供的信息不外乎来自两个方面:组成和排列.组成方面的信息可以用常规的频率去反映.问题的关键是如何反映字符序列的排列信息.该文在综述了现有算法的基础上,尝试着从数论的角度来看待字符序列分析问题,提出了字符序列的解析数论模型.在该模型中,把字符序列看成是数的表示,从而把字符序列分析问题转化成一个数论问题,并用数学分析方法辅助解决.字符序列解析数论模型的核心概念是对偶描述子,因此,该模型有时也称作"对偶描述子方法".对偶描述子由两部分组成:组成权重因子和位置权重函数."组成权重因子"来源于自然计数制中"基数"的概念,是它在实数域上的推广.位置权重函数的概念则是自然数系统中所固有的,它也被推广到了实数域.为了逼近位置权重函数,傅里叶变换、小波变换等理论很自然地被引入到字符序列的处理中来.该文给出了一种基于一定的数据集,来训练对偶描述子的交替式学习方法.训练所得的对偶描述子,就携带了原数据集的特征信息.通过该文提供的D值阈值判别方法,它可以用于字符序列的识别.同时,由于位置权重函数的引入,实现了位置加权统计,由此所得的结果,便是"带位置权重的频率",简称"加权频率".加权频率优于常规频率的地方就在于,它不仅可以反映字符序列的组成信息,还能反映它的排列信息.因此,加权频率可以作为字符序列的特征量.有了它,对偶描述子就可以和其他的一些判别方法,比如Fisher判别等,联合使用来进行字符序列的识别了.以DNA序列分析为例,该文演示了对偶描述子在生物信息学中的应用.具体内容包括:序列特征的提取,对偶描述子学习过程的演示,D值阈值判别和加权频率Fisher判别在原核生物基因识别和真核生物外显子识别中的应用.
其他文献
网络技术的发展推动了多媒体技术的发展,近年不断涌现出全新的多媒体网络应用,比如网络电视、远程教育、网络视频电话和远程医疗,这些应用都可能会遇到媒体之间不同步的问题,
研究背景和目的:Gsdma3基因是Gsdm基因家族中位于小鼠第11号染色体的亚家族Gsdma基因家族成员之一,Gsdma基因家族成员同视黄酸受体α及角质蛋白1的编码基因紧邻。Gsdma3基因存
随着CMOS工艺特征尺寸的不断减小,高性能数字集成电路(IC, Integrated Circuit)的速度、规模和复杂度都在高速增长。这对芯片间的传输速率提出了更高的要求。由于传统的电互连
肝细胞癌(简称肝癌)是最常见和恶性程度最高的肿瘤之一,位居全球恶性肿瘤发病率的第5位,在中国为恶性肿瘤死因第2位.采用天然化学防癌剂来观察其抗肿瘤作用以及探讨它们可能
表面等离子激元共振(Surface Plasmon Resonance,简称SPR)传感技术是通过测量金属表面附近介质折射率变化来进行检测的一种新型传感技术,是将光学、电化学、微电子学等相结合
本研究探讨了使用化学材料甲氧基聚乙二醇(mPEG)修饰人红细胞稀有血型抗原,通过对比实验从三种携不同端基的mPEG中选择出修饰效果好的mPEG-BTC,并优化了mPEG修饰红细胞血型抗原的
氧氟沙星(Ofloxacin,OFLX)是第三代喹诺酮抗生素代表药物之一,具有广谱、高效、细菌不易耐药、副作用小等特点,在治疗细菌性腹泻方面发挥了重要的作用。哺乳动物的结肠具有吸收和分泌的机能,参与机体对水、电解质平衡的调节,维持内环境稳定。但氧氟沙星在结肠粘膜电解质转运中的作用及内在信号转导机制的研究却未见报道。 目的:探讨氧氟沙星对大鼠结肠上皮细胞离子转运的影响及其相关机制。 方法
与CMOS工艺兼容的CMOS-MEMS技术将MEMS结构部分和CMOS电路做在同一块衬底上,可以实现高信噪比、制备大阵列的敏感单元,成本低,适合大批量生产,已成为智能传感器的发展主流。  
该文以烟台市牟平区蛤堆后村观海轩东西两侧的野生玫瑰为研究对象,选取了28个斑块(GX P1-GX P13、GD P1-GD P15),用RAPD标记对斑块内的遗传多样性、克隆结构与斑块间的遗传分
目的 探讨宫内不同生长状态对超未成熟儿(extremely preterm infants,EPI)与超低出生体重儿(extremely low birth weight infants,ELBWI)临床救治结局的影响.方法 收集广东省