持续同调文章阅读
原文:Mathieu Carriere, Frédéric Chazal, Marc Glisse, Yuichi Ike, Hariprasad Kannan. Optimizing persistent homology based functions. ICML 2021 - 38th International Conference on Machine Learning, Jul 2021,Virtual conference, United States. pp.1294-1303.
这篇文章给持续同调有关的一类函数加到loss里的可微性提供了理论保证。
Section1:Filtrations and persistence diagrams
Simplicial complexes and filtrations
定义1.1(filtration): 给定一个单纯复形
K
K
K和
R
\mathbb{R}
R的一个子集
R
R
R,称
K
K
K的一个
f
i
l
t
r
a
t
i
o
n
filtration
filtration是一个由
K
K
K的子复形构成的单调升列
(
K
r
)
r
∈
R
(K_r)_{r \in R}
(Kr)r∈R,且满足
∪
r
∈
R
K
r
=
K
\cup_{r \in R}K_r=K
∪r∈RKr=K。
定义1.2(filtering index): 对每个复形
σ
∈
K
\sigma \in K
σ∈K,可以对应地定义其
f
i
l
t
e
r
i
n
g
filtering
filtering
i
n
d
e
x
index
index为:
Φ
σ
=
i
n
f
{
r
∈
R
:
σ
∈
K
r
}
\Phi_\sigma=inf\{r\in R:\sigma \in K_r\}
Φσ=inf{r∈R:σ∈Kr}。
它可以等价地用
R
∣
K
∣
\mathbb{R}^{|K|}
R∣K∣中的
∣
K
∣
|K|
∣K∣维向量
Φ
=
(
Φ
σ
)
σ
∈
K
\Phi=(\Phi_\sigma)_{\sigma \in K}
Φ=(Φσ)σ∈K表示,并且满足以下条件:若
σ
,
τ
∈
K
\sigma,\tau\in K
σ,τ∈K,且
σ
⊂
τ
\sigma \subset \tau
σ⊂τ,则
Φ
σ
≤
Φ
τ
\Phi_\sigma \le \Phi_\tau
Φσ≤Φτ。
定义1.3(parametrized family of filtrations): 令
K
K
K是一个单纯复形,
A
A
A是一个集合。称映射
Φ
:
A
→
R
∣
K
∣
\Phi:A\rightarrow\mathbb{R}^{|K|}
Φ:A→R∣K∣是
p
a
r
a
m
e
t
r
i
z
e
d
f
a
m
i
l
y
o
f
f
i
l
t
r
a
t
i
o
n
s
parametrized\, family \, of\, filtrations
parametrizedfamilyoffiltrations,若对任何
x
∈
A
,
σ
,
τ
∈
K
x \in A,\sigma,\tau \in K
x∈A,σ,τ∈K且满足
σ
⊂
τ
\sigma\subset\tau
σ⊂τ,皆有
Φ
σ
(
x
)
≤
Φ
τ
(
x
)
\Phi_{\sigma}(x)\le\Phi_{\tau}(x)
Φσ(x)≤Φτ(x)。
Persistence computation from filtrations
这部分的主要结果是引入了以下定义:
定义1.4(regular part(resp. essential part)): 一个持续图表
D
D
D中那些具有有限坐标分量(resp. 无限坐标分量)的点构成的子集被称为
D
D
D的
r
e
g
u
l
a
r
p
a
r
t
(
r
e
s
p
.
e
s
s
e
n
t
i
a
l
p
a
r
t
)
regular \, part(resp. essential \, part)
regularpart(resp.essentialpart),记成
D
r
e
g
(
r
e
s
p
.
D
e
s
s
)
D_{reg}(resp. \, D_{ess})
Dreg(resp.Dess)。
此定义前,作者还引入了算法说明如何确定这些点的配对情况。

Section2:Differentiability of functions of persistence
Background on o-minimal geometry
这部分介绍了o-minimal structure的定义,并说明了一大类集族都具有o-minimal structure。
定义2.1(o-minimal structure): 设
{
S
n
}
n
∈
N
\{S_n\}_{n\in\mathbb{N}}
{Sn}n∈N是实数域
R
\mathbb{R}
R上的一个集族,其中每个
S
n
S_n
Sn是
R
n
\mathbb{R}^n
Rn中一些子集构成的集合。称
{
S
n
}
n
∈
N
\{S_n\}_{n\in\mathbb{N}}
{Sn}n∈N是一个
o
−
m
i
n
i
m
a
l
s
t
r
u
c
t
u
r
e
o-minimal \,structure
o−minimalstructure,若它满足以下五条:
(1)
S
1
S_1
S1恰好是由点(point)和间隔(interval)关于有限并运算构成的集合;
(2)
R
n
R^n
Rn的所有代数子集(algebraic subsets)在
S
n
S_n
Sn中;
(3)
S
n
S_n
Sn是
R
n
R^n
Rn的布尔子代数( Boolean subalgebra);
(4)若
A
∈
S
n
A\in S_n
A∈Sn且
B
∈
S
m
B\in S_m
B∈Sm,则
A
×
B
∈
S
n
×
m
A\times B\in S_{n\times m}
A×B∈Sn×m;
(5)若
π
:
R
n
+
1
→
R
n
\pi :\mathbb{R}^{n+1}\rightarrow\mathbb{R}^n
π:Rn+1→Rn是到前
n
n
n个坐标分量的线性投影,且
A
∈
S
n
+
1
A\in S^{n+1}
A∈Sn+1,则
π
(
A
)
∈
S
n
\pi(A)\in S^n
π(A)∈Sn。
定义2.2(definable set): 对
n
∈
N
n\in \mathbb{N}
n∈N,
S
n
S_n
Sn中的元素
A
A
A称为o-minimal structure中的
d
e
f
i
n
a
b
l
e
s
e
t
definable \,set
definableset(可定义集)。
定义2.3(definable): 对一个可定义集
A
∈
R
n
A\in\mathbb{R}^n
A∈Rn,一个映射
f
:
A
→
R
m
f:A\rightarrow\mathbb{R}^{m}
f:A→Rm称为是
d
e
f
i
n
a
b
l
e
definable
definable(可定义的),若
f
f
f的图像是
R
n
+
m
\mathbb{R}^{n+m}
Rn+m中的可定义集。
特别地,
R
n
\mathbb{R}^n
Rn中半代数子集族具有o-minimal structure。
Persistence diagrams of definable parametrized families of filtrations
这部分介绍的persistence map在后面会用到。记 F i l t K Filt_K FiltK是由定义了 K K K的某个filtration的 R ∣ K ∣ \mathbb{R}^{|K|} R∣K∣中的向量构成的集合,persistence map P e r s : F i l t K → R ∣ K ∣ Pers:Filt_K\rightarrow\mathbb{R}^{|K|} Pers:FiltK→R∣K∣由 R ∣ K ∣ \mathbb{R}^{|K|} R∣K∣中坐标的置换构成。
Examples of definable families of filtrations
Definable families of filtrations的定义较为抽象,以下作者列举了几个例子,这里记录第一个。
例(Vietoris-Rips filtrations): 给定
n
n
n个点
x
1
,
x
2
,
⋯
,
x
n
∈
R
d
x_1,x_2,\cdots,x_n\in\mathbb{R}^d
x1,x2,⋯,xn∈Rd,考虑
Φ
:
A
=
(
R
d
)
n
→
R
∣
Δ
n
∣
=
R
2
n
−
1
\Phi:A=(\mathbb{R}^d)^n\rightarrow\mathbb{R}^{|\Delta_n|}=\mathbb{R}^{2^n-1}
Φ:A=(Rd)n→R∣Δn∣=R2n−1,其中
Δ
n
\Delta_n
Δn是由所有
n
−
1
n-1
n−1维的面(faces)构成的单纯复形。对
x
=
(
x
1
,
x
2
,
⋯
,
x
n
)
∈
A
x=(x_1,x_2,\cdots,x_n)\in A
x=(x1,x2,⋯,xn)∈A和
σ
⊂
{
1
,
2
,
⋯
,
n
}
\sigma\subset\{1,2,\cdots,n\}
σ⊂{1,2,⋯,n},定义
Φ
σ
(
x
)
=
m
a
x
i
,
j
∈
σ
∣
∣
x
i
−
x
j
∣
∣
\Phi_\sigma(x)= \mathop{max}\limits_{i,j\in\sigma}||x_i-x_j||
Φσ(x)=i,j∈σmax∣∣xi−xj∣∣,能够形成
V
i
e
t
o
r
i
s
−
R
i
p
s
f
i
l
t
r
a
t
i
o
n
s
Vietoris-Rips\, filtrations
Vietoris−Ripsfiltrations。
两点解释:
(1)
∣
Δ
n
∣
=
2
n
−
1
|\Delta_n|=2^n-1
∣Δn∣=2n−1是由于
C
n
0
+
⋯
+
C
n
n
−
1
=
2
n
−
1
C_n^0+\cdots+C_n^{n-1}=2^n-1
Cn0+⋯+Cnn−1=2n−1。
(2)对
x
∈
A
x\in A
x∈A,如果
σ
⊂
τ
\sigma\subset\tau
σ⊂τ,则显然有
Φ
σ
(
x
)
=
m
a
x
i
,
j
∈
σ
∣
∣
x
i
−
x
j
∣
∣
≤
m
a
x
i
,
j
∈
τ
∣
∣
x
i
−
x
j
∣
∣
=
Φ
τ
(
x
)
\Phi_\sigma(x)= \mathop{max}\limits_{i,j\in\sigma}||x_i-x_j||\le\mathop{max}\limits_{i,j\in\tau}||x_i-x_j||=\Phi_\tau(x)
Φσ(x)=i,j∈σmax∣∣xi−xj∣∣≤i,j∈τmax∣∣xi−xj∣∣=Φτ(x)。
Section3:Minimization of functions of persistence
Stochastic gradient descent
这部分给出了本文关于收敛性最重要的定理。首先是一些准备工作。
定义3.1(a function of persistence): 称函数
E
:
R
∣
K
∣
=
(
R
2
)
p
×
R
q
→
R
E:\mathbb{R}^{|K|}=(\mathbb{R}^2)^p\times\mathbb{R}^q\rightarrow\mathbb{R}
E:R∣K∣=(R2)p×Rq→R是
a
f
u
n
c
t
i
o
n
o
f
p
e
r
s
i
s
t
e
n
c
e
a\,function\, of\, persistence
afunctionofpersistence,若对任何
(
p
1
,
⋯
,
p
p
,
e
1
,
⋯
,
e
q
)
∈
(
R
2
)
p
×
R
q
(p_1,\cdots,p_p,e_1,\cdots,e_q)\in(\mathbb{R}^2)^p\times\mathbb{R}^q
(p1,⋯,pp,e1,⋯,eq)∈(R2)p×Rq、集合
{
1
,
2
,
⋯
,
p
}
\{1,2,\cdots,p\}
{1,2,⋯,p}的置换
α
\alpha
α以及集合
{
1
,
2
,
⋯
,
q
}
\{1,2,\cdots,q\}
{1,2,⋯,q}的置换
β
\beta
β,皆有
E
(
p
α
(
1
)
,
⋯
,
p
α
(
p
)
,
e
β
(
1
)
,
⋯
,
e
β
(
q
)
)
=
E
(
p
1
,
⋯
,
p
p
,
e
1
,
⋯
,
e
q
)
E(p_{\alpha(1)},\cdots,p_{\alpha(p)},e_{\beta(1)},\cdots,e_{\beta(q)})=E(p_1,\cdots,p_p,e_1,\cdots,e_q)
E(pα(1),⋯,pα(p),eβ(1),⋯,eβ(q))=E(p1,⋯,pp,e1,⋯,eq)考虑复合
L
=
E
⋅
P
e
r
s
⋅
Φ
\mathcal{L}=E\cdot Pers\cdot \Phi
L=E⋅Pers⋅Φ,我们极小化
L
\mathcal{L}
L。迭代算法:
x
k
+
1
=
x
k
−
α
k
(
y
k
+
ζ
k
)
,
y
k
∈
∂
L
(
x
k
)
x_{k+1}=x_k-\alpha_{k}(y_k+\zeta_k),y_k\in\partial\mathcal{L}(x_k)
xk+1=xk−αk(yk+ζk),yk∈∂L(xk) 其中
(
α
k
)
k
(\alpha_{k})_k
(αk)k是学习率,
(
ζ
k
)
k
(\zeta_k)_k
(ζk)k是随机变量序列。接着,我们提三个较弱的假设条件:
(1)对任何
k
k
k,
α
k
≥
0
,
∑
k
=
1
+
∞
α
k
=
∞
,
∑
k
=
1
+
∞
α
k
2
<
∞
\alpha_{k}\ge0,\sum_{k=1}^{+\infty}\alpha_k=\infty,\sum_{k=1}^{+\infty}\alpha_k^2<\infty
αk≥0,∑k=1+∞αk=∞,∑k=1+∞αk2<∞;
(2)
s
u
p
k
∣
∣
x
k
∣
∣
<
∞
,
a
.
s
.
\mathop{sup}\limits_{k}||x_k||<\infty,a.s.
ksup∣∣xk∣∣<∞,a.s.;
(3)记
{
F
k
=
σ
(
x
j
,
y
j
,
ζ
j
,
j
<
k
)
}
\{\mathcal{F}_k=\sigma(x_j,y_j,\zeta_j,j<k)\}
{Fk=σ(xj,yj,ζj,j<k)}为
σ
−
\sigma-
σ−代数流,则存在一个在有限集合上有界的函数
p
:
R
d
→
R
p:\mathbb{R}^d\rightarrow \mathbb{R}
p:Rd→R使得对任何
k
k
k,有
E
[
ζ
k
∣
F
k
]
=
0
,
E
[
∣
∣
ζ
k
∣
∣
2
∣
F
k
]
<
p
(
x
k
)
,
a
.
s
.
\mathbb{E}[\zeta_k|\mathcal{F}_k]=0,\mathbb{E}[||\zeta_k||^2|\mathcal{F}_k]<p(x_k),a.s.
E[ζk∣Fk]=0,E[∣∣ζk∣∣2∣Fk]<p(xk),a.s.。
(注:条件(3)是说:以过去为条件,能得到均值为0方差有限的结果。)
定理: 令
K
K
K是一个单纯复形,
A
⊂
R
d
A\subset\mathbb{R}^d
A⊂Rd,
Φ
:
A
→
R
∣
K
∣
\Phi:A\rightarrow\mathbb{R}^{|K|}
Φ:A→R∣K∣是
K
K
K的一个parametrized family of filtrations,并在o-minimal structure上可定义。令
E
:
R
∣
K
∣
→
R
E:\mathbb{R}^{|K|}\rightarrow\mathbb{R}
E:R∣K∣→R是一个definable function of persistence,使得
L
=
E
⋅
P
e
r
s
⋅
Φ
\mathcal{L}=E\cdot Pers\cdot \Phi
L=E⋅Pers⋅Φ是局部Lipschitz的。则在以上三条假设下,通过迭代得到的序列
(
x
k
)
k
(x_k)_k
(xk)k是
L
\mathcal{L}
L的极值点并且序列
(
L
(
X
k
)
)
k
(\mathcal{L}(X_k))_k
(L(Xk))k收敛。
Examples of definable locally Lipschitz functions of persistence
作者给了三个例子,这些例子都是常用的,这里只写第一个。例子道出了
E
E
E的含义:将拓扑损失加到神经网络时,我们经常比较网络预测的持续图表和真实的持续图表之间的差异,就是用
E
E
E来度量的。
例(Total persistence): 给定一个持续图表
D
D
D,将它以
R
2
p
+
q
\mathbb{R}^{2p+q}
R2p+q中向量表示:
D
=
(
(
b
1
,
d
1
)
,
⋯
,
(
b
p
,
d
p
)
,
e
1
,
⋯
,
e
q
)
D=((b_1,d_1),\cdots,(b_p,d_p),e_1,\cdots,e_q)
D=((b1,d1),⋯,(bp,dp),e1,⋯,eq),定义
E
(
D
)
=
∑
i
=
1
p
∣
d
i
−
b
i
∣
E(D)=\sum_{i=1}^{p}|d_i-b_i|
E(D)=∑i=1p∣di−bi∣,则
E
E
E是一个半代数,从而在任意o-minimal structure可定义。显然,
E
E
E也是Lipschitz的。
Acknowledgement: 感谢师姐对其中一些疑惑的解答。
本文围绕持续同调相关函数展开研究。介绍了过滤和持久图的定义与计算,阐述了持久性函数的可微性,包括o - minimal几何背景等。还给出了持久性函数最小化的随机梯度下降算法及收敛性定理,列举了可定义的局部Lipschitz持久性函数的例子。

4687

被折叠的 条评论
为什么被折叠?



