聚类——Newman系列算法

原创已于 2025-10-10 15:21:43 修改 · 3k 阅读 ·

大模型引用 2 次

本内容遵循CC 4.0 BY-SA版权协议

绝域

关注

标签

#算法 #聚类 #机器学习

分类人工智能

于 2023-04-08 22:23:37 首次发布

聚类算法精解专栏收录该内容

1 篇文章

订阅专栏

聚类——Newman系列算法

模块度 $Q$
模块度增量 $ΔQ\ \Delta Q$
Fast Newman
CNM
Fast Unfolding

Newman系列算法本质上是一种贪心的聚类算法，以最优化模块度 $Q$ 为目标进行聚类，在具体实现上有些类似于层次聚类（hierarchical clustering）。该系列算法在处理大型社群网络时具有较高的效率。本文将介绍这个系列中的三种：Fast Newman算法（fast algorithm for community structure in networks），CNM（clauset-newman-moore）算法（Finding community structure in very large networks. ），Fast Unfolding算法（Fast unfolding of communities in large networks）。CNM算法是在Fast Newman算法基础上用堆数据结构来计算并更新模块度的一种改进。

模块度 $Q$

模块度 $Q$ 是一种衡量社群网络结构强度的指标，是社群内部关联性的度量方式之一，其值越接近1，表示网络划分出的社区结构的强度越强，也就是划分质量越好。模块度的基本思想是把划分后的网络与划分后的随机网络进行比较，以度量社团划分的质量。可以公式化的定义为：
$模块度 Q = (落在同一组内的边的比例) - (划分后的随机网络中落在同一组的边的比例)$
这里我们考虑一种简单的网络结构——无向无加权网络。假设网络中有 $n$ 个节点， $m$ 条边，则可以用 $An×n\ A^{n \times n}$ 的邻接矩阵表示这个网络，且满足 $A_{ij}= A_{ji}$ ；当节点 $i\ i$ 和节点 $j\ j$ 之间有边连接时 $A_{ij}=1$ ，当节点 $i\ i$ 和节点 $j\ j$ 之间没有边连接时 $A_{ij}=0$ 。
$落在同一组内的边的比例=(落在同一组内边的数量)÷(边的总数)\ 落在同一组内的边的比例=(落在同一组内边的数量)\div(边的总数)$ 。落在同一组内边的数量等价于事件（某两个节点间存在一条边，且这条两个节点处于同一社群）的数量。这里我们引入一个变量 $δij\ \delta_{ij}$ 表示 $i$ 节点与 $j$ 节点是否处于同一社群中，当 $i$ 节点与 $j$ 节点在同一社群中时 $δij=1\ \delta_{ij}=1$ ，不在同一社群中时 $δij=0\ \delta_{ij}=0$ 。则结合邻接矩阵 $A$ 可以得到 $落在同一组内边的数量=12Σ(Aijδij)\ 落在同一组内边的数量=\frac{1}{2}\Sigma(A_{ij}\delta_{ij})$ 由于在无向图的邻接矩阵中每条边实际会被计算两次，所以需要乘以 $12\ \frac{1}{2}$ 。进而我们可以得到 $落在同一组内的边的比例=Σ(Aijδij)2m\ 落在同一组内的边的比例=\frac{\Sigma(A_{ij}\delta_{ij})}{2m}$
为了使度量具有可操作性，这里要求随机网络中的节点和原网络中的节点具有相同的度。由此，可以设想以下场景：将原有的 $m$ 条边从中间切开，每个节点持有原先边的一半（即半边），我们可以得到 $2m\ 2m$ 条半边，将这些半边随机两两重新连接（不包括自身），允许节点自环、两个节点间存在多条边等特殊情况，则得到的随机网络中每个节点必定具有和原来相同的度。在这个场景下，若节点 $i\ i$ 原先度为 $k_{i}$ ，则它会有 $k_{i}$ 条半边，它的每一条半边和任意另一条半边连接的概率为 $12m−1\ \frac{1}{2m-1}$ ，假设节点 $j$ 具有 $k_{j}$ 条半边，则节点 $i$ 的某一条半边和节点 $j$ 的一条半边相连的概率为 $kj2m−1\ \frac{k_{j}}{2m-1}$ ，节点 $i$ 和节点 $j$ 间存在一条边的期望为 $kikj2m−1\ \frac{k_{i}k_{j}}{2m-1}$ ，当 $m$ 很大时，期望可近似为 $kikj2m\ \frac{k_{i}k_{j}}{2m}$ ，故我们可以得到 $划分后的随机网络中落在同一组的边的比例=\frac{\Sigma(\frac{k_{i}k_{j}}{2m}\delta_{ij})}{2m}$ 因此 $Q=\frac{1}{2m}\Sigma(A_{ij}-\frac{k_{i}k_{j}}{2m})\delta_{ij}$
而社群是由节点组成的，如果一个网络被分为了 $k$ 个社群，且所有社群都不重叠，则我们可以用一个矩阵 $ek×k\ e^{k\times k}$ 表示社群划分情况，其中 $e_{vv}$ 表示社群 $v$ 内部边的比例， $e_{vw}$ 表示社群 $v$ 和社群 $j$ 之间边的比例，结合上文所述可以表示为 $e_{vw}=\frac{\Sigma A_{ij}\delta(v,C_{i})\delta(w,C_{j})}{2m}$ 进一步我们可以定义 $a_{v}$ 表示社群 $v$ 所有边的比例（包括社群内部和社群之间） $a_{v}=\frac{1}{2m}\Sigma_{i}k_{i}\delta(v,C_{i})=\frac{k_{v}}{2m}=\Sigma_{w} e_{vw}$ 注意到 $\delta_{ij}=\delta(C_{i},v)\delta(C_{j},v)$
因此模块度也可以表示为 $\begin{aligned} Q&=\frac{1}{2m}\Sigma_{ij} A_{ij}\delta_{ij}-\frac{1}{2m}\Sigma_{ij}\frac{k_{i}k_{j}}{2m}\delta_{ij}\\&=\Sigma_{v}(\frac{1}{2m}\Sigma_{ij}A_{ij}\delta(C_{i},v)\delta(C_{j},v)-\frac{1}{2m}\Sigma_{i}k_{i}\delta(C_{i},v)\frac{1}{2m}\Sigma_{j}k_{j}\delta(C_{j},v))\\ &=\Sigma_{v}(e_{vv}-a_{v}^{2}) \end{aligned}\\$

模块度增量 $ΔQ\ \Delta Q$

$ΔQ\ \Delta Q$ 表示合并两个社群后对模块度的贡献。对于社群矩阵 $e$ ，合并社群 $v$ 和社群 $w$ 得到新社群 $u$ ，社群 $u$ 满足 $e_{uu}=e_{vv}+e_{ww}+e_{vw}+e_{wv}$ ， $a_{u}=a_{v}+a_{w}$ ，社群 $u$ 与社群 $k$ 之间满足 $e_{uk}=e_{vk}+e_{wk}$ 。根据上文所述可以得到 $\Delta Q_{vw}=e_{uu}-e_{vv}-e_{ww}+a_u^{2}-a_v^{2}-a_w^{2}=e_{vw}+e_{wv}-2a_{v}a_{w}$

Fast Newman

Fast Newman算法通过每次选择最大 $ΔQvw\ \Delta Q_{vw}$ 进行社群合并，达到最优化 $Q$ 的目标。具体流程为

先将每个节点视为一个独立的社群，初始化 $e$ 和 $a$ ，计算社群与其相邻社群融合的 $ΔQvw\ \Delta Q_{vw}$
选择 $argmax(ΔQvw)argmax(\Delta Q_{vw})$ ，融合这两个社群，更新 $e$ 和 $a$ ，重新计算 $ΔQvw\ \Delta Q_{vw}$
重复步骤2，直到所有节点在同一个社群或者 $Q$ 不再增加

CNM

CNM算法沿用了Fast Newman算法的思路，在性能上作出了改进。一方面使用堆结构来维护 $ΔQvw\ \Delta Q_{vw}$ ，另一方面给出了每次社群合并后 $ΔQvw\ \Delta Q_{vw}$ 的递推关系 $\Delta Q_{uk}=\begin {cases} \Delta Q_{vk}+ \Delta Q_{wk},&社群k与社群v、社群w都有连接\\ \Delta Q_{vk}-2a_{w}a_{k}, &社群k只与社群v有连接\\ \Delta Q_{wk}-2a_{v}a_{k}, &社群k只与社群w有连接\\ 0, &社群k与社群v、社群w均没有连接\end{cases}$ 根据上面提到的 $ΔQ\ \Delta Q$ 推导过程，将 $ΔQuk\ \Delta Q_{uk}$ 展开即可得到该递推关系，这里就不进行详细推导了。

Fast Unfolding

Fast Unfolding算法与Fast Newman算法过程上非常相似，都是通过对 $ΔQ\ \Delta Q$ 贪心求取最优化 $Q$ ；不同之处在于Fast Unfolding算法在每次迭代中将所有为正的 $ΔQ\ \Delta Q$ 都进行融合，而Fast Newman算法每次只选择最大 $ΔQ\ \Delta Q$ 进行融合。具体流程如下