论文部分内容阅读
跨膜蛋白在离子通道型受体等生物系统中有着重要的作用,是药物设计的关键目标。通过物理实验来获取它的结构难度很大,使用计算的方法成为当前非常流行和有效的方法。目前,跨膜蛋白片段预测已经取得了很多的进展和成果,有许多方法和模型被开发,在精度上获得了不断地提高。但是当前的方法基本都属于黑盒模型,不能解释学习的过程和结果是如何达成的。决策的可解释性是在生物信息学中衡量机器学习算法性能的一个重要标准,它不仅可以被用来对生物湿实验提供指导,而且有助于集成计算智能到符号智能系统中,用于高级的推理应用。目前针对跨膜蛋白片段的预测可理解性,已经提出了一些解决方案,然而这些技术还存在不同方面的不足。比如使用支持向量机结合决策树的算法,能成功提取出可理解的规则集,但规则集的数量很大,不便于阅读;而且规则形式是IF-THEN的命题规则,对复杂生物序列的背景特征信息表达能力不足。一个好的可理解性规则应当具有:(1)可读性。规则集在比较准确地表达预测条件下,有比较适中的规则数量。(2)简单性。规则形式应当比较容易表达复杂条件,单条规则不能过长和过于复杂。(3)一致性。规则所表达的知识应该符合生物学规则。(4)准确性。能够在提供好的可理解性条件下保持较好的准确性,才能对实际问题有有效的指导意义。
基于对以上问题的分析,本文提出一个基于隐马尔科夫模型(HMM,Hidden MarkovModel)的组合规则生成法HMMFOIL。首先使用HMM对原始氨基酸序列进行预测过滤,剔除掉一些噪声数据,因为HMM模型结构中跨膜段和非跨膜段内相对交界处来说比较稳定,所以这个模型主要过滤的是处于跨膜边界不稳定位点数据;其次,采用一阶规则归纳学习器FOIL算法从HMM过滤后的样本数据中提取一阶规则集,FOIL生成的一阶规则可以有正文字和负文字,所以能够很好地简单表达正负样本信息。最后,使用分类器设计中的重采样技术来增强规则集的分类性能,得到最终的规则集。该模型已在来自SWISS-PORT数据库的165跨膜蛋白数据集上进行了验证,与其他算法在本数据集上的实验结果相比,本模型能够在更高的预测精度下,提供更好的规则表达形式,改善规则集的可理解性。实验结果证明了模型的可行性和有效性。