数据分布拟合的EM算法及其在生物计算中的应用

来源 :南开大学 | 被引量 : 0次 | 上传用户:yuzao81927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,生物信息或基因数据挖掘更使人类受益匪浅。数据分布的拟合问题是数据发掘理论与应用中的一个典型问题。这就是为了更确切地了解一批观测数据的统计特性,我们必须确定它们的分布函数,用已知的概率分布去作拟合。本文的主要内容就是讨论在较一般的昆合分布条件下,用EM算法,在最小熵原理的优化准则下的数据拟合问题。 传统的EM算法是我们早已熟知的算法,本文是在其基础上提出了新的优化准则,从而使其更方便的应用于数据分布拟合问题。这就是用一般指数混合分布,对观测数据进行拟合,使它们的Kullback-Leibler熵为最小。本文在给出了拟合计算中的EM算法后,也证明了该拟合计算的收敛性定理。 在生物计算中存在大量数据拟合问题,本文以蛋白质空间结构分析为例,利用PDB数据库对蛋白质空间结构中的几种重要参数进行分布拟合,得到了明显的效果,并由此可以得到蛋白质空间结构特性。这使得本文提出的基于最小熵原理的EM算法有着更实际的意义。
其他文献
煤田自燃是煤矿一大突出自然灾害,不仅严重影响煤炭的正常生产,造成大量煤炭资源的浪费,同时对井下人员的生命安全造成极大威胁。因此在煤火燃烧初期有效发现火源位置是十分重要
插值逼近是用简单的可计算函数对一般函数的逼近,并进而考虑逼近的程度和如何刻画被逼近函数本身的特性。由于插值多项式结构比较简单,又易于进行数值计算,所以插值逼近在分析数
学位
本论文主要讨论了广义剩余格与广义MV-代数、广义剩余格与广义BL-代数之间的关系;同时讨论了左连续的广义R0 t-模的同构,并给出了广义R0-代数与PL公理理体系的定义;介绍了