探索系统发育树空间
1. 树空间
在系统发育推断中,需要估计的参数是树的拓扑结构(或分级树)以及共同祖先的相关分歧时间。这并非一个标准的统计问题,因为参数空间并非简单的欧几里得空间,即不是 $R^n$ 或 $R^n$ 的任何简单凸子空间。虽然树的空间可以被认为是由位于 $R^n$ 中的欧几里得子空间构成(对于每个树拓扑结构或分级树,有一个 $n$ 维的卦限,也就是将 $R^n$ 限制为非负实数;见图 1),但其整体结构并非欧几里得空间(见图 2),因此需要新的统计技术来进行分析和可视化。
形式上,系统发育树空间,简称树空间,是一个度量空间,使得该空间中的点与 $n$ 个分类单元的系统发育树集合一一对应(即度量空间与所有树的集合之间存在双射,由于拓扑结构上的每个分歧时间组合都代表一棵不同的树,所以树的集合具有连续统的大小)。度量空间的距离通过上述同构诱导出任意两棵树之间的距离。这里,我们特别考虑时间树和时间树空间,但为了简便,我们使用树空间这个术语。
尽管系统发育树的统计推断已经有几十年的历史,但令人惊讶的是,树度量空间的理论发展却很少,并且由于树空间的非欧几里得性质,存在许多未解决的问题和挑战。一个关键挑战在于如何总结树空间中的一组树。统计学中的基本概念,如样本的均值和方差,对于树空间来说很难定义(除非拓扑结构是固定的),并且与欧几里得空间中的对应概念相比,具有不寻常的性质。这一领域的一个关键成果是对分支长度不受限制的系统发育树(即非时间树)的树空间几何的描述,称为 BHV 空间。最近,关于 BHV 空间有了一些令人兴奋的进展,包括描述了一种在 BHV 空间中计算树之间距离的多项式时间算法,为产生系统发育重建的贝叶斯点估计开辟了新的途径。然而,对于时间树空间,还没有类似的结果。
超级会员免费看
订阅专栏 解锁全文

165

被折叠的 条评论
为什么被折叠?



