基于跨膜蛋白片段预测的规则生成技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户：geyukcl

【摘要】

：

跨膜蛋白在离子通道型受体等生物系统中有着重要的作用，是药物设计的关键目标。通过物理实验来获取它的结构难度很大，使用计算的方法成为当前非常流行和有效的方法。目前，跨膜蛋

【作者】

：

陈平平

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2009年期

【关键词】

：

跨膜蛋白片段预测药物设计黑盒模型机器学习算法性能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

跨膜蛋白在离子通道型受体等生物系统中有着重要的作用，是药物设计的关键目标。通过物理实验来获取它的结构难度很大，使用计算的方法成为当前非常流行和有效的方法。目前，跨膜蛋白片段预测已经取得了很多的进展和成果，有许多方法和模型被开发，在精度上获得了不断地提高。但是当前的方法基本都属于黑盒模型，不能解释学习的过程和结果是如何达成的。决策的可解释性是在生物信息学中衡量机器学习算法性能的一个重要标准，它不仅可以被用来对生物湿实验提供指导，而且有助于集成计算智能到符号智能系统中，用于高级的推理应用。目前针对跨膜蛋白片段的预测可理解性，已经提出了一些解决方案，然而这些技术还存在不同方面的不足。比如使用支持向量机结合决策树的算法，能成功提取出可理解的规则集，但规则集的数量很大，不便于阅读；而且规则形式是IF-THEN的命题规则，对复杂生物序列的背景特征信息表达能力不足。一个好的可理解性规则应当具有：(1)可读性。规则集在比较准确地表达预测条件下，有比较适中的规则数量。(2)简单性。规则形式应当比较容易表达复杂条件，单条规则不能过长和过于复杂。(3)一致性。规则所表达的知识应该符合生物学规则。(4)准确性。能够在提供好的可理解性条件下保持较好的准确性，才能对实际问题有有效的指导意义。　　基于对以上问题的分析，本文提出一个基于隐马尔科夫模型(HMM，Hidden MarkovModel)的组合规则生成法HMMFOIL。首先使用HMM对原始氨基酸序列进行预测过滤，剔除掉一些噪声数据，因为HMM模型结构中跨膜段和非跨膜段内相对交界处来说比较稳定，所以这个模型主要过滤的是处于跨膜边界不稳定位点数据；其次，采用一阶规则归纳学习器FOIL算法从HMM过滤后的样本数据中提取一阶规则集，FOIL生成的一阶规则可以有正文字和负文字，所以能够很好地简单表达正负样本信息。最后，使用分类器设计中的重采样技术来增强规则集的分类性能，得到最终的规则集。该模型已在来自SWISS-PORT数据库的165跨膜蛋白数据集上进行了验证，与其他算法在本数据集上的实验结果相比，本模型能够在更高的预测精度下，提供更好的规则表达形式，改善规则集的可理解性。实验结果证明了模型的可行性和有效性。

其他文献

智能型铁道车辆轮重测载仪的设计与实现

长期以来,由于客观条件限制及经济利益驱使,铁路货车超载(或欠载)、偏载现象严重,造成车辆设备损伤,大大降低使用寿命,甚至危及行车安全。在运行中及时发现和防止设备故障的发生或扩大,并采取相应的措施,成为目前保证列车运行安全急需解决的问题。因此,采用新技术、新装备、新方法,对货车超偏载情况进行准确测量,才能确保客车安全运行和旅客人身安全。为此,我所成立课题组研制了智能型铁道车辆轮重测定仪。轮重测定仪是

学位

智能轮重仪凌阳SPCEO61A单片机A/D转换USB接口通讯

Hadoop平台下作业调度方法研究

云计算在网页搜索、数据挖掘等大规模数据处理方面正变得越来越重要,Hadoop作为一个开源的云计算平台也得到了广泛的应用。作业调度算法是Hadoop平台的核心,良好的作业调度算

学位

云计算Hadoop作业调度异构集群实时调度

关于车牌字符识别技术的研究

车牌识别技术是一项日渐成熟的技术。目前,大多数国家和地区都有自己的车牌识别系统,而且它们的识别率也很高,但交通系统不断复杂和所处环境的不确定,对车牌识别技术提出了更

学位

车牌识别车牌定位圆投影法圆心定位

基于小波变换图像融合算法的人脸检测

随着社会的发展以及技术的进步,人们对快速高效的自动人脸识别的要求日益迫切。生物特征由于是人的内在属性,具有很强的自身稳定性和个体差异性,在科研领域内得到了极大的重

学位

AdaBoost人脸检测图像融合小波变换分类器

基于CPN的oN-the-fly测试方法研究

随着信息技术的迅猛发展和网络化时代的到来，各种各样的Web应用系统高频率的出现在我们的日常生活、工作和学习中。对于多并发的Web应用系统，其状态图的规模是以并发数指数级增

学位

on-the-fly测试CPN层次模型扩展可达图同步乘积Web应用系统

基于网络演算的多媒体回放控制研究

计算机网络技术和通信技术的迅猛发展,极大地促进了多媒体应用的普及。多媒体应用与传统数据型应用相比,集成了各种不同性质的媒体,特别是近几年出现的多种新型业务,如IP电话

学位

多媒体回放控制网络演算业务自相似特性平滑播放

基于SAML的跨域单点登录与访问控制方法研究

随着互联网技术的发展和人们对电子办公、电子商务等的依赖,信息安全问题显得愈发重要。用户每天需要登录到许多不同的信息系统。每个系统都要求用户遵循一定的安全策略,比如

学位

单点登录身份认证访问控制SAMLXACML

基于双语对齐的汉文-新蒙古文命名实体翻译技术研究

对于统计机器翻译而言,命名实体的识别及实体的翻译是影响其性能的重要因素。目前专门针对新蒙文命名实体识别的研究较少且多采用基于规则的方法；这种方法需要人工标注新蒙文

学位

命名实体识别命名实体翻译CRF词对齐

人脸图像质量评价方法研究

随着计算机科学的飞速发展,计算机相关领域的应用已经深入到人们牛活的各个方面,并起着十分巨大的作用。其中,图像工程是计算机科学研究中比较前沿的研究课题。人脸图像质量

学位

熵灰度对比度灰度适宜度边缘突出度小波系数人脸特征

人体运动捕获数据的分析方法研究

近年来,运动捕获技术逐渐成熟,并广泛应用于影视制作、游戏设计和体育训练等领域。随着运动捕获数据的逐年积累和运动编辑、合成等技术的飞速发展,使得高效地重用现有的捕获

学位

人体运动捕获数据运动修复运动分割运动压缩运动检索主测地线分析张量填充张量分解

基于跨膜蛋白片段预测的规则生成技术研究

与本文相关的学术论文