论文部分内容阅读
图模型用来广泛表示和分析随机变量之间的因果关系以及条件独立性。两类著名的统计图模型是马尔可夫网(无向图)和贝叶斯网(有向无环图)。Wermuth和Lauritzen(1990)介绍了一种包含以上两类模型但是并不局限于此的更广的一类图模型:链图模型。当随机变量中既有响应解释关系(因果关系)又有对称关系(相关关系)时,运用链图模型来表示是最合适的,而贝叶斯网(有向无环图)主要处理前者,马尔可夫网(无向图)主要处理后者。目前随着用途的发展,更多的链图模型作为一种模型工具出现在统计应用中。Stanghellini和Hand(1999)通过构建一个链图模型来解决关于信用得分的一个案例研究.在生物信息学中,Cox和Pavlovic(2006)运用链图模型对蛋白质进行分类,并且Xing和Carbonell(2005)借助链图模型来预测蛋白质的结构。然而,当我们遇到假设检验、模型选择策略以及大数据的数据降维时,链图模型的可压缩性就显示出它的重要性。 链图模型的可压缩性意味着我们在进行变量的边缘化之后能够得到与之前相同的统计推断结果。显然,将一个庞大的变量集压缩到一个较小的子集后,变量个数的减少大大降低了统计分析的复杂性并且提高了分析的效率,因此我们能够更直观、更简洁地解释统计推断的结果。然而,一般地,在某些变量上进行压缩后可能会得到不同甚至是相反的推断结果,这就是著名的Yule-Simpson悖论。根据条件的不同,链图模型的可压缩性可以分为条件独立可压缩性、估计可压缩性和模型可压缩性等。条件独立可压缩性是指全图在子图上诱导的条件独立性集合与子图上的条件独立性集合相等,即I(Gv)a= I(Ga)。 估计可压缩是指链图模型(Gv,F)的最大似然估计P(;r)的边缘分布户(印W)与诱导的链图模型(Gv{a},F(Tv{a}))的最大似然估计PgV{a}(Xv{?})是一样的,即P(xV{a})—PQv{a}(xV{a})。 模型可压缩是指全图在子图上诱导的相适应的分布与子图上的相适应的分布是一致的,即M(Gv)a= M(Ga)。 估计可压缩需要两个最大似然估计的数值确切相等,然而模型可压缩仅需要它们渐进相同。 在这篇论文中,我主要讨论了链图模型中的估计可压缩性和条件独立可压缩性。然而,不像有向无环图模型中的情形,链图模型的可压缩性更加复杂。这是因为链图中既包含无向边也包含有向边并且链图有更一般的马尔可夫性质。本文第二章介绍链图模型的估计可压缩性以及c-可移除的定义,并给出几个定理来说明它们之间的关系。第三章介绍链图模型的条件独立可压缩性以及相关的可移除性。在第四章简要说明一下模型可压缩性以及它与条件独立可压缩性的强弱关系。