论文部分内容阅读
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,生物信息或基因数据挖掘更使人类受益匪浅。数据分布的拟合问题是数据发掘理论与应用中的一个典型问题。这就是为了更确切地了解一批观测数据的统计特性,我们必须确定它们的分布函数,用已知的概率分布去作拟合。本文的主要内容就是讨论在较一般的昆合分布条件下,用EM算法,在最小熵原理的优化准则下的数据拟合问题。
传统的EM算法是我们早已熟知的算法,本文是在其基础上提出了新的优化准则,从而使其更方便的应用于数据分布拟合问题。这就是用一般指数混合分布,对观测数据进行拟合,使它们的Kullback-Leibler熵为最小。本文在给出了拟合计算中的EM算法后,也证明了该拟合计算的收敛性定理。
在生物计算中存在大量数据拟合问题,本文以蛋白质空间结构分析为例,利用PDB数据库对蛋白质空间结构中的几种重要参数进行分布拟合,得到了明显的效果,并由此可以得到蛋白质空间结构特性。这使得本文提出的基于最小熵原理的EM算法有着更实际的意义。