持续同调文章阅读

本文围绕持续同调相关函数展开研究。介绍了过滤和持久图的定义与计算,阐述了持久性函数的可微性,包括o - minimal几何背景等。还给出了持久性函数最小化的随机梯度下降算法及收敛性定理,列举了可定义的局部Lipschitz持久性函数的例子。

原文:Mathieu Carriere, Frédéric Chazal, Marc Glisse, Yuichi Ike, Hariprasad Kannan. Optimizing persistent homology based functions. ICML 2021 - 38th International Conference on Machine Learning, Jul 2021,Virtual conference, United States. pp.1294-1303.

这篇文章给持续同调有关的一类函数加到loss里的可微性提供了理论保证。

Section1:Filtrations and persistence diagrams

Simplicial complexes and filtrations

定义1.1(filtration): 给定一个单纯复形 K K K R \mathbb{R} R的一个子集 R R R,称 K K K的一个 f i l t r a t i o n filtration filtration是一个由 K K K的子复形构成的单调升列 ( K r ) r ∈ R (K_r)_{r \in R} (Kr)rR,且满足 ∪ r ∈ R K r = K \cup_{r \in R}K_r=K rRKr=K
定义1.2(filtering index): 对每个复形 σ ∈ K \sigma \in K σK,可以对应地定义其 f i l t e r i n g filtering filtering i n d e x index index为: Φ σ = i n f { r ∈ R : σ ∈ K r } \Phi_\sigma=inf\{r\in R:\sigma \in K_r\} Φσ=inf{rR:σKr}
  它可以等价地用 R ∣ K ∣ \mathbb{R}^{|K|} RK中的 ∣ K ∣ |K| K维向量 Φ = ( Φ σ ) σ ∈ K \Phi=(\Phi_\sigma)_{\sigma \in K} Φ=(Φσ)σK表示,并且满足以下条件:若 σ , τ ∈ K \sigma,\tau\in K σ,τK,且 σ ⊂ τ \sigma \subset \tau στ,则 Φ σ ≤ Φ τ \Phi_\sigma \le \Phi_\tau ΦσΦτ
定义1.3(parametrized family of filtrations): K K K是一个单纯复形, A A A是一个集合。称映射 Φ : A → R ∣ K ∣ \Phi:A\rightarrow\mathbb{R}^{|K|} Φ:ARK p a r a m e t r i z e d   f a m i l y   o f   f i l t r a t i o n s parametrized\, family \, of\, filtrations parametrizedfamilyoffiltrations,若对任何 x ∈ A , σ , τ ∈ K x \in A,\sigma,\tau \in K xA,σ,τK且满足 σ ⊂ τ \sigma\subset\tau στ,皆有 Φ σ ( x ) ≤ Φ τ ( x ) \Phi_{\sigma}(x)\le\Phi_{\tau}(x) Φσ(x)Φτ(x)

Persistence computation from filtrations

这部分的主要结果是引入了以下定义:
定义1.4(regular part(resp. essential part)): 一个持续图表 D D D中那些具有有限坐标分量(resp. 无限坐标分量)的点构成的子集被称为 D D D r e g u l a r   p a r t ( r e s p . e s s e n t i a l   p a r t ) regular \, part(resp. essential \, part) regularpart(resp.essentialpart),记成 D r e g ( r e s p .   D e s s ) D_{reg}(resp. \, D_{ess}) Dreg(resp.Dess)
此定义前,作者还引入了算法说明如何确定这些点的配对情况。
图1

Section2:Differentiability of functions of persistence

Background on o-minimal geometry

这部分介绍了o-minimal structure的定义,并说明了一大类集族都具有o-minimal structure。
定义2.1(o-minimal structure): { S n } n ∈ N \{S_n\}_{n\in\mathbb{N}} {Sn}nN是实数域 R \mathbb{R} R上的一个集族,其中每个 S n S_n Sn R n \mathbb{R}^n Rn中一些子集构成的集合。称 { S n } n ∈ N \{S_n\}_{n\in\mathbb{N}} {Sn}nN是一个 o − m i n i m a l   s t r u c t u r e o-minimal \,structure ominimalstructure,若它满足以下五条:
(1) S 1 S_1 S1恰好是由点(point)和间隔(interval)关于有限并运算构成的集合;
(2) R n R^n Rn的所有代数子集(algebraic subsets)在 S n S_n Sn中;
(3) S n S_n Sn R n R^n Rn的布尔子代数( Boolean subalgebra);
(4)若 A ∈ S n A\in S_n ASn B ∈ S m B\in S_m BSm,则 A × B ∈ S n × m A\times B\in S_{n\times m} A×BSn×m
(5)若 π : R n + 1 → R n \pi :\mathbb{R}^{n+1}\rightarrow\mathbb{R}^n π:Rn+1Rn是到前 n n n个坐标分量的线性投影,且 A ∈ S n + 1 A\in S^{n+1} ASn+1,则 π ( A ) ∈ S n \pi(A)\in S^n π(A)Sn
定义2.2(definable set): n ∈ N n\in \mathbb{N} nN S n S_n Sn中的元素 A A A称为o-minimal structure中的 d e f i n a b l e   s e t definable \,set definableset(可定义集)。
定义2.3(definable): 对一个可定义集 A ∈ R n A\in\mathbb{R}^n ARn,一个映射 f : A → R m f:A\rightarrow\mathbb{R}^{m} f:ARm称为是 d e f i n a b l e definable definable(可定义的),若 f f f的图像是 R n + m \mathbb{R}^{n+m} Rn+m中的可定义集。
特别地, R n \mathbb{R}^n Rn中半代数子集族具有o-minimal structure。

Persistence diagrams of definable parametrized families of filtrations

这部分介绍的persistence map在后面会用到。记 F i l t K Filt_K FiltK是由定义了 K K K的某个filtration的 R ∣ K ∣ \mathbb{R}^{|K|} RK中的向量构成的集合,persistence map P e r s : F i l t K → R ∣ K ∣ Pers:Filt_K\rightarrow\mathbb{R}^{|K|} Pers:FiltKRK R ∣ K ∣ \mathbb{R}^{|K|} RK中坐标的置换构成。

Examples of definable families of filtrations

Definable families of filtrations的定义较为抽象,以下作者列举了几个例子,这里记录第一个。
例(Vietoris-Rips filtrations): 给定 n n n个点 x 1 , x 2 , ⋯   , x n ∈ R d x_1,x_2,\cdots,x_n\in\mathbb{R}^d x1,x2,,xnRd,考虑 Φ : A = ( R d ) n → R ∣ Δ n ∣ = R 2 n − 1 \Phi:A=(\mathbb{R}^d)^n\rightarrow\mathbb{R}^{|\Delta_n|}=\mathbb{R}^{2^n-1} Φ:A=(Rd)nRΔn=R2n1,其中 Δ n \Delta_n Δn是由所有 n − 1 n-1 n1维的面(faces)构成的单纯复形。对 x = ( x 1 , x 2 , ⋯   , x n ) ∈ A x=(x_1,x_2,\cdots,x_n)\in A x=(x1,x2,,xn)A σ ⊂ { 1 , 2 , ⋯   , n } \sigma\subset\{1,2,\cdots,n\} σ{1,2,,n},定义 Φ σ ( x ) = m a x i , j ∈ σ ∣ ∣ x i − x j ∣ ∣ \Phi_\sigma(x)= \mathop{max}\limits_{i,j\in\sigma}||x_i-x_j|| Φσ(x)=i,jσmax∣∣xixj∣∣,能够形成 V i e t o r i s − R i p s   f i l t r a t i o n s Vietoris-Rips\, filtrations VietorisRipsfiltrations
两点解释:
(1) ∣ Δ n ∣ = 2 n − 1 |\Delta_n|=2^n-1 Δn=2n1是由于 C n 0 + ⋯ + C n n − 1 = 2 n − 1 C_n^0+\cdots+C_n^{n-1}=2^n-1 Cn0++Cnn1=2n1
(2)对 x ∈ A x\in A xA,如果 σ ⊂ τ \sigma\subset\tau στ,则显然有 Φ σ ( x ) = m a x i , j ∈ σ ∣ ∣ x i − x j ∣ ∣ ≤ m a x i , j ∈ τ ∣ ∣ x i − x j ∣ ∣ = Φ τ ( x ) \Phi_\sigma(x)= \mathop{max}\limits_{i,j\in\sigma}||x_i-x_j||\le\mathop{max}\limits_{i,j\in\tau}||x_i-x_j||=\Phi_\tau(x) Φσ(x)=i,jσmax∣∣xixj∣∣i,jτmax∣∣xixj∣∣=Φτ(x)

Section3:Minimization of functions of persistence

Stochastic gradient descent

这部分给出了本文关于收敛性最重要的定理。首先是一些准备工作。
定义3.1(a function of persistence): 称函数 E : R ∣ K ∣ = ( R 2 ) p × R q → R E:\mathbb{R}^{|K|}=(\mathbb{R}^2)^p\times\mathbb{R}^q\rightarrow\mathbb{R} E:RK=(R2)p×RqR a   f u n c t i o n   o f   p e r s i s t e n c e a\,function\, of\, persistence afunctionofpersistence,若对任何 ( p 1 , ⋯   , p p , e 1 , ⋯   , e q ) ∈ ( R 2 ) p × R q (p_1,\cdots,p_p,e_1,\cdots,e_q)\in(\mathbb{R}^2)^p\times\mathbb{R}^q (p1,,pp,e1,,eq)(R2)p×Rq、集合 { 1 , 2 , ⋯   , p } \{1,2,\cdots,p\} {1,2,,p}的置换 α \alpha α以及集合 { 1 , 2 , ⋯   , q } \{1,2,\cdots,q\} {1,2,,q}的置换 β \beta β,皆有 E ( p α ( 1 ) , ⋯   , p α ( p ) , e β ( 1 ) , ⋯   , e β ( q ) ) = E ( p 1 , ⋯   , p p , e 1 , ⋯   , e q ) E(p_{\alpha(1)},\cdots,p_{\alpha(p)},e_{\beta(1)},\cdots,e_{\beta(q)})=E(p_1,\cdots,p_p,e_1,\cdots,e_q) E(pα(1),,pα(p),eβ(1),,eβ(q))=E(p1,,pp,e1,,eq)考虑复合 L = E ⋅ P e r s ⋅ Φ \mathcal{L}=E\cdot Pers\cdot \Phi L=EPersΦ,我们极小化 L \mathcal{L} L。迭代算法: x k + 1 = x k − α k ( y k + ζ k ) , y k ∈ ∂ L ( x k ) x_{k+1}=x_k-\alpha_{k}(y_k+\zeta_k),y_k\in\partial\mathcal{L}(x_k) xk+1=xkαk(yk+ζk),ykL(xk) 其中 ( α k ) k (\alpha_{k})_k (αk)k是学习率, ( ζ k ) k (\zeta_k)_k (ζk)k是随机变量序列。接着,我们提三个较弱的假设条件:
(1)对任何 k k k α k ≥ 0 , ∑ k = 1 + ∞ α k = ∞ , ∑ k = 1 + ∞ α k 2 < ∞ \alpha_{k}\ge0,\sum_{k=1}^{+\infty}\alpha_k=\infty,\sum_{k=1}^{+\infty}\alpha_k^2<\infty αk0,k=1+αk=,k=1+αk2<
(2) s u p k ∣ ∣ x k ∣ ∣ < ∞ , a . s . \mathop{sup}\limits_{k}||x_k||<\infty,a.s. ksup∣∣xk∣∣<,a.s.
(3)记 { F k = σ ( x j , y j , ζ j , j < k ) } \{\mathcal{F}_k=\sigma(x_j,y_j,\zeta_j,j<k)\} {Fk=σ(xj,yj,ζj,j<k)} σ − \sigma- σ代数流,则存在一个在有限集合上有界的函数 p : R d → R p:\mathbb{R}^d\rightarrow \mathbb{R} p:RdR使得对任何 k k k,有 E [ ζ k ∣ F k ] = 0 , E [ ∣ ∣ ζ k ∣ ∣ 2 ∣ F k ] < p ( x k ) , a . s . \mathbb{E}[\zeta_k|\mathcal{F}_k]=0,\mathbb{E}[||\zeta_k||^2|\mathcal{F}_k]<p(x_k),a.s. E[ζkFk]=0,E[∣∣ζk2Fk]<p(xk),a.s.
(注:条件(3)是说:以过去为条件,能得到均值为0方差有限的结果。)
定理: K K K是一个单纯复形, A ⊂ R d A\subset\mathbb{R}^d ARd Φ : A → R ∣ K ∣ \Phi:A\rightarrow\mathbb{R}^{|K|} Φ:ARK K K K的一个parametrized family of filtrations,并在o-minimal structure上可定义。令 E : R ∣ K ∣ → R E:\mathbb{R}^{|K|}\rightarrow\mathbb{R} ERKR是一个definable function of persistence,使得 L = E ⋅ P e r s ⋅ Φ \mathcal{L}=E\cdot Pers\cdot \Phi L=EPersΦ是局部Lipschitz的。则在以上三条假设下,通过迭代得到的序列 ( x k ) k (x_k)_k (xk)k L \mathcal{L} L的极值点并且序列 ( L ( X k ) ) k (\mathcal{L}(X_k))_k (L(Xk))k收敛。

Examples of definable locally Lipschitz functions of persistence

作者给了三个例子,这些例子都是常用的,这里只写第一个。例子道出了 E E E的含义:将拓扑损失加到神经网络时,我们经常比较网络预测的持续图表和真实的持续图表之间的差异,就是用 E E E来度量的。
例(Total persistence): 给定一个持续图表 D D D,将它以 R 2 p + q \mathbb{R}^{2p+q} R2p+q中向量表示: D = ( ( b 1 , d 1 ) , ⋯   , ( b p , d p ) , e 1 , ⋯   , e q ) D=((b_1,d_1),\cdots,(b_p,d_p),e_1,\cdots,e_q) D=((b1,d1),,(bp,dp),e1,,eq),定义 E ( D ) = ∑ i = 1 p ∣ d i − b i ∣ E(D)=\sum_{i=1}^{p}|d_i-b_i| E(D)=i=1pdibi,则 E E E是一个半代数,从而在任意o-minimal structure可定义。显然, E E E也是Lipschitz的。

Acknowledgement: 感谢师姐对其中一些疑惑的解答。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值