新型生物酶的挖掘算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:bigmouse0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卤醇脱卤酶是一类重要的蛋白质,它不仅能通过开环反应催化有毒污染物的降解,还能作为亲核试剂促进高价值药物中间体的生成。卤醇脱卤酶在自然界中的分布极为稀少,目前仅在少数菌株中发现过卤醇脱卤酶酶活性的表达。已有的生成卤醇脱卤酶的生物实验虽然可行,但存在成本高昂且效率过低的问题。因此,根据已测定的卤醇脱卤酶序列高效挖掘更多的新卤醇脱卤酶序列,丰富已有的卤醇脱卤酶数据集的需求显得尤为迫切。另一方面,深度生成模型在图像处理、语音识别和文本生成领域都取得了令人惊喜的成果,但在生物序列方面的应用仍然存在较大的空白。综合考虑以上两个因素,本文提出了一种新的研究思路——将深度生成模型应用于新型卤醇脱卤酶序列挖掘研究之中。为实现新卤醇脱卤酶序列的挖掘,本文首先根据已有相关的序列知识构建卤醇脱卤酶数据集,然后识别卤醇脱卤酶序列中的模体,再使用深度生成模型生成新卤醇脱卤酶序列,最后建立分类模型对生成的序列进行挖掘预测。本文主要内容及创新点如下:1)提出了将模体的判别能力考虑在内的模体识别算法。使用已有的MEME算法识别卤醇脱卤酶正样本包含的模体后,计算模体的判别式评分特征(MSC、MOR和MRE),并据此筛选过滤在卤醇脱卤酶正负样本中分布差异过小的模体。2)将深度生成模型应用于卤醇脱卤酶序列生成任务。本文首先使用LSTM网络生成卤醇脱卤酶序列,因为LSTM生成的卤醇脱卤酶序列的多样性差、序列长度过短,因此改用在文本生成领域取得了显著成就的SeqGAN模型进行序列生成,并在传统的SeqGAN模型中加入一个反馈回路以指导判别器的训练。SeqGAN模型生成的序列在序列多样性方面较LSTM有一定的改进,但其序列长度仍存在着均值过低、标准差过大的问题;为解决这一问题,本文使用在长文本生成领域有出色表现的LeakGAN模型作为序列生成模型,在传统模型的基础上为其加入了一个反馈回路以提高生成的序列的质量,实验结果表明改进后的LeakGAN模型能够高效生成具有生物学意义的卤醇脱卤酶序列。3)提出了一个可对生成的卤醇脱卤酶序列实行高效分类的判别模型。首先建立g-gap特征树确定需要提取的特征,再将从序列信息中提取出来的特征进行选择及离散化,最后使用多项式朴素贝叶斯模型对带反馈回路的LeakGAN模型生成的卤醇脱卤酶序列进行功能预测。
其他文献
生物质作为取代不可再生的石化能源生产液体燃料和化学品的潜在原料,近年来越来越受到广大科研工作者的关注。而生物质基平台分子,例如5-羟甲基糠醛(HMF)的催化转化成为研究的
随着大规模集成电路产业不断向小型化发展的趋势,SiO_2作为传统的CMOS结构的栅介质已经不能满足目前的需求。寻找新型铁电材料与硅基CMOS集成电路工艺良好的兼容性,使其对于集成铁电学的发展具有重要意义。铪基氧化物纳米薄膜具备高的介电常数(K25)、与CMOS集成工艺技术兼容、经特殊工艺处理后具备铁电性,使它成为新一代栅介质的潜在材料。本文选取氧化铪陶瓷靶和氧化钇陶瓷靶在TiN衬底上通过脉冲激光沉
锆钛酸铅(PbZrxTi1-xO3,PZT)因具有优异的压电、铁电、热释电和介电性能,在动态随机存储器、红外探测器以及可调谐微波器件等方面得到了广泛应用。而它在可见和红外波段的高度透明性,高的折射率和大的电光系数,被认为是制作新一代特性参数动态可调光子器件的理想材料。近年来,随着利用含有聚合物的单一化学溶液,基于相分离原理和静电引力作用,制备周期性铁电多层膜技术的发明,人们不仅制作了多种铁电基光子
气候变暖已是一个不争的事实,并正在成为国际社会共同关注的重大问题,是人们在将来很长一段时间都需要面临的挑战。气候变暖给各个国家的经济发展、社会进步以及生态环境都带
目的对小檗碱(BBR)影响水通道蛋白2(AQP2)在糖尿病(DM)大鼠肾集合管上皮细胞内水平状况展开讨论,同时分析在DM大鼠肾集合管病理反应中BBR的作用。方法实验中,基于要求,对SD大鼠实施8周高脂高糖饲喂干预,之后,经腹腔向注入链脲佐菌素(STZ50mg/kg),三天后检测空腹血糖,如果发现浓度高于16.7mmol/L,则可判断糖尿病模型造模成功。将研究对象依据处理方式不同而分为4组:(1)对
随着国家对环境保护的重视,污染物排放标准也越来越严格。新颁布的《石油炼制工业污染物排放标准》(GB31570-2015),要求对于环境存在能力开始减弱或生态环境脆弱,容易发生严
太阳能光催化分解水制氢因太阳能储量丰富以及氢能清洁便于利用等优点,被认为是解决能源与环境问题的理想途径。TiO2具有光催化活性高、稳定性好等优点,且对人体无毒害,储量
苯并咪唑酮是含有两个C-N键的杂环化合物,可用于制备多种重要的有机化合物。苯并咪唑酮及其衍生物不仅被用作受体拮抗剂、受体激动剂、HSP90抑制剂,而且在遗传性疾病、胃肠道
泥炭(质)土是自然界中有机质含量最多的土类,具有独特的工程性质。其有机质主要来源于植物枝叶、根系、分泌物及动物的分解残余,是土壤微生物的能量源,也是土壤中最活跃的物质组成部分,对泥炭土的工程性质影响很大。岩土体中存在大量的微生物,其生命活动会改变泥炭土有机质含量和组分,从而改变土的工程性质。将微生物过程加以控制和利用来解决具体的岩土工程问题,称为微生物岩土技术。近年来,利用微生物岩土技术改良岩土体
设C表示middle-third Cantor集且N:={0,1,2,3,…}.在本文中,我们基于Utz的方法[21]较系统地研究了Cantor集的平方和问题.我们研究了Athreya,Reznick和Tyson在[2]中提出的一个关于Cantor集平方和的猜想:每个u ∈[0,1]可以表示为t21+t22+t33+t24,ti ∈ C,i=1,2,3,4.我们证明了Vu∈[∪∞n=0[1/9n·