论文部分内容阅读
生物学家用系统、控制论与信息处理方法来观察了解生物学过程的例子越来越多。确定性、不确定性的数学模型和智能计算模型帮助他们构思新的实验方法,洞察复杂的生物系统。另一方面,系统控制论等信息科学学者也正把生物体看作又一类新的复杂系统与智能系统的研究目标。信息科学与生物科学的互动越演越列,交叉越演越密,其重要体现之一是生物信息学的研究。其研究内容包括基因组信息学、蛋白质的结构模拟以及药物设计三个重要的方面。 本文采用粗粒化元胞自动机研究生物信息中的若干模型,取得了以下方面的创新研究成果: ● 构造氨基酸数字编码模型 采用相似规则、对称规则、分子识别理论以及信息处理方法,建立了氨基酸的数字编码模型。此编码模型考虑了氨基酸的物理化学特性,且氨基酸与其数字编码是一一对应的。它可以把生物字符序列转变为二进制数字序列,这种变换使得生物信息可以用其它的数字信息处理方法来研究。 ● 提出了基于粗粒化元胞自动机的生物序列可视化模型 基于粗粒化元胞自动机给出了一种新的基因序列可视化方法。与其它生物序列可视化方法作图时碱基所对应的空间点只与此碱基之前的碱基数量和种类有关所不同的是,在构图时,碱基所对应的空间点与此前后碱基的数量和种类都有关。首次提出了元胞自动机图(CAI)的概念与方法,使许多隐含在长而复杂的生物字符序列中的特征,通过CAI清楚地表现出来。提供了一个研究生物序列关键特征和辨识基因功能的新途径。 ● 给出了SARS序列的一种特征分析 基于粗粒化元胞自动机序列可视化模型,首次发现了SARS病毒图像中所含有的“V”型结构,提出了局部对称性的概念。分析靠“V”型所对应的序列区,得出SARS序列5端开始第3232bp~5624bp、5703bp~7195bp:12128bp~14470bp、16444bp~19231bp、19720bp~21803bp,这五段中腺嘌呤(A)的个数与鸟嘧啶(U)基本相同,且在前半段以腺嘌呤为主,后半段以鸟嘧啶为主,而其他的所有非SARS冠状病毒都不具有此特征。根据这个特征为依据,对所有的冠状病毒进行比较,给出鸟类流行性支气管炎病毒与猪流行性腹泻病毒与SARS最接近的论断。 ● 研究了蛋白质亚细胞定位预测 基于伪氨基酸成分的扩大协方差判别式算法,提出了一种新的基于粗粒化元胞自动机的蛋白质序列图和氨基酸成分的预测蛋白质亚细胞定位方法,使现有的图像识别技术可以直接地被应用于预测蛋白质亚细胞定位。Self-consistency和Jackknife测试已表明蛋白质定位与它的元胞自动机图是有联系的。 ● 研究了蛋白质二级结构类型预测 与现有的预测蛋白质二级结构类型只基于氨基酸成份的方法不同,我们首