基于跨膜蛋白片段预测的规则生成技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:geyukcl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨膜蛋白在离子通道型受体等生物系统中有着重要的作用,是药物设计的关键目标。通过物理实验来获取它的结构难度很大,使用计算的方法成为当前非常流行和有效的方法。目前,跨膜蛋白片段预测已经取得了很多的进展和成果,有许多方法和模型被开发,在精度上获得了不断地提高。但是当前的方法基本都属于黑盒模型,不能解释学习的过程和结果是如何达成的。决策的可解释性是在生物信息学中衡量机器学习算法性能的一个重要标准,它不仅可以被用来对生物湿实验提供指导,而且有助于集成计算智能到符号智能系统中,用于高级的推理应用。目前针对跨膜蛋白片段的预测可理解性,已经提出了一些解决方案,然而这些技术还存在不同方面的不足。比如使用支持向量机结合决策树的算法,能成功提取出可理解的规则集,但规则集的数量很大,不便于阅读;而且规则形式是IF-THEN的命题规则,对复杂生物序列的背景特征信息表达能力不足。一个好的可理解性规则应当具有:(1)可读性。规则集在比较准确地表达预测条件下,有比较适中的规则数量。(2)简单性。规则形式应当比较容易表达复杂条件,单条规则不能过长和过于复杂。(3)一致性。规则所表达的知识应该符合生物学规则。(4)准确性。能够在提供好的可理解性条件下保持较好的准确性,才能对实际问题有有效的指导意义。   基于对以上问题的分析,本文提出一个基于隐马尔科夫模型(HMM,Hidden MarkovModel)的组合规则生成法HMMFOIL。首先使用HMM对原始氨基酸序列进行预测过滤,剔除掉一些噪声数据,因为HMM模型结构中跨膜段和非跨膜段内相对交界处来说比较稳定,所以这个模型主要过滤的是处于跨膜边界不稳定位点数据;其次,采用一阶规则归纳学习器FOIL算法从HMM过滤后的样本数据中提取一阶规则集,FOIL生成的一阶规则可以有正文字和负文字,所以能够很好地简单表达正负样本信息。最后,使用分类器设计中的重采样技术来增强规则集的分类性能,得到最终的规则集。该模型已在来自SWISS-PORT数据库的165跨膜蛋白数据集上进行了验证,与其他算法在本数据集上的实验结果相比,本模型能够在更高的预测精度下,提供更好的规则表达形式,改善规则集的可理解性。实验结果证明了模型的可行性和有效性。
其他文献
长期以来,由于客观条件限制及经济利益驱使,铁路货车超载(或欠载)、偏载现象严重,造成车辆设备损伤,大大降低使用寿命,甚至危及行车安全。在运行中及时发现和防止设备故障的发生或扩大,并采取相应的措施,成为目前保证列车运行安全急需解决的问题。因此,采用新技术、新装备、新方法,对货车超偏载情况进行准确测量,才能确保客车安全运行和旅客人身安全。为此,我所成立课题组研制了智能型铁道车辆轮重测定仪。轮重测定仪是
云计算在网页搜索、数据挖掘等大规模数据处理方面正变得越来越重要,Hadoop作为一个开源的云计算平台也得到了广泛的应用。作业调度算法是Hadoop平台的核心,良好的作业调度算
车牌识别技术是一项日渐成熟的技术。目前,大多数国家和地区都有自己的车牌识别系统,而且它们的识别率也很高,但交通系统不断复杂和所处环境的不确定,对车牌识别技术提出了更
随着社会的发展以及技术的进步,人们对快速高效的自动人脸识别的要求日益迫切。生物特征由于是人的内在属性,具有很强的自身稳定性和个体差异性,在科研领域内得到了极大的重
随着信息技术的迅猛发展和网络化时代的到来,各种各样的Web应用系统高频率的出现在我们的日常生活、工作和学习中。对于多并发的Web应用系统,其状态图的规模是以并发数指数级增
计算机网络技术和通信技术的迅猛发展,极大地促进了多媒体应用的普及。多媒体应用与传统数据型应用相比,集成了各种不同性质的媒体,特别是近几年出现的多种新型业务,如IP电话
随着互联网技术的发展和人们对电子办公、电子商务等的依赖,信息安全问题显得愈发重要。用户每天需要登录到许多不同的信息系统。每个系统都要求用户遵循一定的安全策略,比如
对于统计机器翻译而言,命名实体的识别及实体的翻译是影响其性能的重要因素。目前专门针对新蒙文命名实体识别的研究较少且多采用基于规则的方法;这种方法需要人工标注新蒙文
随着计算机科学的飞速发展,计算机相关领域的应用已经深入到人们牛活的各个方面,并起着十分巨大的作用。其中,图像工程是计算机科学研究中比较前沿的研究课题。人脸图像质量
近年来,运动捕获技术逐渐成熟,并广泛应用于影视制作、游戏设计和体育训练等领域。随着运动捕获数据的逐年积累和运动编辑、合成等技术的飞速发展,使得高效地重用现有的捕获