【论文翻译 arXiv 2020】异质网表示学习综述-韩家炜组

最新推荐文章于 2026-04-22 10:43:25 发布

原创

最新推荐文章于 2026-04-22 10:43:25 发布 · 5k 阅读

标签

#HIN #表示学习 #综述 #韩家炜

论文题目：Heterogeneous Network Representation Learning: Survey, Benchmark, Evaluation, and Beyond

论文来源：arXiv 2020.04.01

论文链接：https://arxiv.org/abs/2004.00216

代码链接：https://github.com/yangji9181/HNE

关键词：异质网嵌入，综述，benchmark

异质网的嵌入学习方法(HNE)已经被广泛应用，但还没有一篇详细的综述。

本文的贡献如下：

（1）本文提出了一个统一的范式，对各种现有的HNE算法的优点进行系统的分类和分析。

（2）本文还从不同来源创建了4个具有不同属性的基线数据集，包括规模、结构、属性/标签可用性等，以更全面地评估HNE算法。

（3）重构并修正了10个HNE流行算法接口的实现。并在多个任务和不同的实验设置下对其进行了全方位的比较。

文章目录

1 Generic Paradigm
- 1.1 问题定义
- 1.2 提出的范式
2 算法分类
3 Benchmark
4 实验评估
- 4.1 Algorithms and Modifications
- 4.2 Performance Benchmarks
5 Future

1 Generic Paradigm

1.1 问题定义

（1）网络嵌入(Network embedding)

给定图 $G={\{V, E}\}$ ， $V$ 是节点集合， $E$ 是边集合。网络嵌入就是一个将节点映射成低维向量表示的函数： $\Phi : V\rightarrow \mathbb{R}^{|V|\times d}$ ， $d$ 远小于 $∣ V ∣$ 。映射函数 $\Phi$ 定义了每个节点的隐层表示，表示中含有从边集 $E$ 中捕获到的图的结构信息。

在多数情况下，网络相似性(network proximity)是需要捕获的主要拓扑信息。例如，DeepWalk就捕获到了基于随机游走的节点相似性。随后有各种工作对DeepWalk进行了改进和扩展，这不属于本文的范围，DeepWalk是应用于同质图的，本文关注的是异质图的表示学习。

（2）异质网(Heterogeneous network)

异质网 $H={\{V, E, \phi, \psi}\}$ 有多种类型的节点和边。 $H$ 中，每个节点 $v_i$ 都对应一种节点类型 $\phi(v_i)$ ，每个边 $e_{ij}$ 都对应一种边类型 $\psi(e_{ij})$ 。边的类型自动定义了其两端节点的类型。

（3）元路径(Meta-path)

元路径是定义在network schema上的由不同类型的节点和边组成的序列。

每个元路径都从特定的语义角度捕获到了其两端节点的相似性。使用不同的元路径就可以使得模型计算到多模多类型的节点相似性和关系，有助于学习到更丰富的节点表示。

（4）异质网嵌入(Heterogeneous network embedding)

给定一个异质图 $H$ ，异质网嵌入就是一组映射函数： ${\{\Phi_k: V_k\rightarrow \mathbb{R}^{|V_k|\times d}\}}^K_{k=1}$ 。其中 $K$ 是节点类型的数量， $\forall v_i \in V_k, \phi(v_i)=k$ 。映射函数 $\Phi_k$ 定义了类型为 $k$ 的所有节点的隐层表示，捕获到了 $E$ 中关于异质边的网络拓扑信息。

1.2 提出的范式

HNE一个最重要的原则就是趋同性。在网络嵌入中，趋同性可以解释成“在网络中相近的节点应该有相似的嵌入表示”。

事实上，我们进一步发现了同质性原理和在网络上广泛使用的平滑实施技术之间的内在联系，提出了一个通用的数学范式，涵盖了大多数现有的和可能的许多未来的HNE算法。

作者引入如下的目标函数：

其中， $e_u=\Phi(u), e_v=\Phi(v)$ 是需要学习得到的节点嵌入向量。 $w_{uv}$ 是权重， $d(\cdot, \cdot)$ 是计算嵌入向量间距离的函数， $\mathcal{J}_R$ 是附加的目标函数（例如正则化），在不同的HNE算法中，对这三项的定义不同。

2 算法分类

我们使用一个统一的分类方法，将现有的HNE算法基于它们的目标分为3类，并且解释它们都符合式（1）的范式。

2.1 Proximity-Preserving 方法

网络嵌入的一个基本目标就是捕获到网络的拓扑信息，保留不同类型节点间的相似度可以实现这一目标。HNE中相似度保留(proximity preserving)方法可分成两类：（1）受DeepWalk启发的基于随机游走的方法；（2）受LINE启发的基于一阶/二阶相似度的方法。

2.1.1 基于随机游走的方法

（1）metapath2vec

metapath2vec使用了由元路径指导的随机游走得到的节点组成的路径，考虑到异质的语义信息，来建模节点的上下文。给定元路径 $\mathcal{M}$ ，在第 $i$ 步的转移概率定义为：

其中， $\mathcal{N}_l(v)={\{u|\psi(u, v)=l}\}$ 为通过类型为 $l$ 的边和节点 $v$ 相连接的邻居节点。假定 $\mathcal{P}={\{\mathcal{P}_1,..., \mathcal{P}_M}\}$ 是随机游走生成的一组序列。则metapath2vec的目标函数为：

其中， $\mathcal{C}(v)$ 是 $v$ 在 $\mathcal{P}$ 中的上下文。例如，若 $\mathcal{P}_1=v_1v_2v_3v_4v_5...$ ，上下文窗口大小为2，则 ${\{v_1, v_2, v_4, v_5}\}\subseteq \mathcal{C}(v_3)$ 。令 $w_{uv}$ 记为在 $\mathcal{P}$ 中 $u\in \mathcal{C}(v)$ 出现的次数，将式（3）重写为如下的形式：