AGM算法

最新推荐文章于 2025-07-19 10:18:44 发布

原创最新推荐文章于 2025-07-19 10:18:44 发布 · 1.9k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#算法 #数据结构 #其他 #graphql

frequent subgraph mining 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种基于图数据库的频繁子图挖掘算法FSM，详细阐述了算法如何处理带标签的图，包括生成邻接矩阵、计算支持度、合并矩阵以及将非正规形式矩阵转换为正规形式的过程。并解释了如何通过统计正常形式来确定频繁子图。

令 $G(V,E,LV,LE,φ)G(V,E,L_V,L_E,\varphi)$ 表示一个带标签的图，其中 $V$ 和 $E$ 分别表示顶点集和边集， $L_V$ 和 $L_E$ 分别表示顶点和边的标签集， $φ\varphi$ 是一个标签函数定义了 $\to L_V$ 和 $\to L_E$ 的映射。
FSM算法根据操作的数据不同，可以分为针对图数据库的和针对一个大图的（现在只讨论exact match方法）。
根据每个顶点标签的id对顶点进行排序，然后根据该顺序生成邻接矩阵 $X_k$ ， $k$ 表示顶点个数。邻接矩阵中每个元素表示该边标签的id。
对于
$Xk=(x1,1x1,2x1,3⋯x1,kx2,1x2,2x2,3⋯x2,kx3,1x3,2x3,3⋯x3,k⋮⋮⋮⋱⋮xk,1xk,2xk,3⋯xk,k)X_k=\begin{pmatrix} x_{1,1} & x_{1,2} & x_{1,3} &\cdots &x_{1,k}\\ x_{2,1} & x_{2,2} & x_{2,3} & \cdots &x_{2,k}\\ x_{3,1} & x_{3,2} & x_{3,3} & \cdots &x_{3,k}\\ \vdots & \vdots & \vdots &\ddots &\vdots \\ x_{k,1} & x_{k,2} & x_{k,3} & \cdots &x_{k,k}\\ \end{pmatrix}$
如果是无向图，则 $code(Xk)=x1,1x1,2x2,2x1,3x2,3x3,3x1,4⋯xk−1,kxk,kcode(X_k)=x_{1,1}x_{1,2}x_{2,2}x_{1,3}x_{2,3}x_{3,3}x_{1,4}\cdots x_{k-1,k}x_{k,k}$
如果是有向图，则 $code(Xk)=x1,1x1,2x2,1x2,2x1,3x3,1x2,3x3,2⋯xk−1,kxk,k−1xk,kcode(X_k)=x_{1,1}x_{1,2}x_{2,1}x_{2,2}x_{1,3}x_{3,1}x_{2,3}x_{3,2}\cdots x_{k-1,k}x_{k,k-1}x_{k,k}$ 。
对于一个子图 $G_s$ ，定义它的支持度 $sup(G_s)$ 为数据库中包含该子图的图的个数与总数的比值。
如果两个邻接矩阵 $X_k$ ， $Y_k$ 除了第 $k$ 行和第 $k$ 列不同外，其余元素均相同，则将两个矩阵合并生成 $Z_{k+1}$ 。如下所示：
$Xk=(Xk−1x1x2Txkk)X_k = \begin{pmatrix} X_{k-1} & \boldsymbol {x_1}\\ \boldsymbol {x^T_2} & x_{kk}\\ \end{pmatrix}$ ， $Yk=(Yk−1y1y2Tykk)Y_k = \begin{pmatrix} Y_{k-1} & \boldsymbol {y_1}\\ \boldsymbol {y^T_2} & y_{kk}\\ \end{pmatrix}$

$Zk+1=(Xk−1x1y1x2Txkkzk,k+1y2Tzk+1,kykk)Z_{k+1} = \begin{pmatrix} X_{k-1} & \boldsymbol {x_1} & \boldsymbol {y_1}\\ \boldsymbol {x^T_2} & x_{kk}& z_{k,k+1}\\ \boldsymbol {y^T_2} &z_{k+1,k}& y_{kk}\\ \end{pmatrix}$ ，也可写成
在这里插入图片描述
其中，新矩阵中的元素满足下列关系：

如果是无向图，那么 $z_{k+1,k}$ 和 $z_{k,k+1}$ 相同。该合并操作可以产生多个 $Z_{k+1}$ 矩阵，这是因为 $v_k$ 和 $v_{k+1}$ 的构成的边的label可以有多种选择，因为图数据库中不同的图中这两个点之间的边的不同，也就造成了该边的label的不同，因此 $z_{k+1,k}$ 和 $z_{k,k+1}$ 有多个选择，还有一种选择是没有边，既0。
当 $X_k$ 和 $Y_k$ 中的 $v_k$ 的label相同时，交换 $X_k$ 和 $Y_k$ 后生成的矩阵是一样的，为了避免这种情况，只有当 $matrix)code(the\ first\ matrix)<=code(the\ second\ matrix)$ 时才生成矩阵，生成的矩阵也被称为normal form。只有当大小为 $k + 1$ 的图 $G$ 的所有 $k$ 子图都是频繁子图时， $G$ 才是频繁子图候选项。
如果通过删除一个节点得到的子图不是normal form，必须将其转换成normal form之后才能判断该子图是否已经生成过。通过以下步骤，可以将一个non-normal form 的矩阵 $X_k$ 转换成normal form的矩阵 $X'_k$ ：（1）对 $X_k$ 中的每个节点生成一个 $\times 1$ 的邻接矩阵；（2）对于点 $vi,vj∈G(Xk)v_i,v_j \in G(X_k)$ ，如果其邻接矩阵符合合并条件，则合并；（3）不断地合并新生成的矩阵，知道获得了一个 $\times k$ 的矩阵 $X'_k$ 。该过程涉及到的是行列式的操作，因此可以表示成 $X'_k=(T_k)^T X_k T_k$ 。
当所有候选子图生成后，需要统计每个子图的支持度。但是每个图的normal form并不是唯一的。因此需要将代表同一个子图的不同的normal form的支持度加在一起。为了索引代表同一个子图的不同normal form，定义了normal form的canonical form。定义 $G$ 的canonical form是 $G$ 的normal form中 $c o d e$ 最小的。令 $Xk−1mX^m_{k-1}$ 表示 $G(X_k)$ 移除点 $v_m$ 后得到的图。 $Xk−1′mX^{'m}_{k-1}$ 表示 $Xk−1mX^m_{k-1}$ 经过 $Tk−1mT^m_{k-1}$ 变换后得到的normal form。 $Xk−1′mX^{'m}_{k-1}$ 经过 $Sk−1mS^m_{k-1}$ 变换后得到canonical form。整体过程可表示为 $(Tk−1mSk−1m)TXk−1mTk−1mSk−1m(T^m_{k-1}S^m_{k-1})^TX^m_{k-1}T^m_{k-1}S^m_{k-1}$ 。
那么我们可以用 $SkmS^m_k$ 和 $TkmT^m_k$ 将 $X_k$ 转换成canonical form $X_{ck}$ 。而 $SkmS^m_k$ 和 $TkmT^m_k$ 又可以通过 $Sk−1mS^m_{k-1}$ 和 $Tk−1mT^m_{k-1}$ 获得。具体过程如下所示：
在这里插入图片描述
寻找频繁子图时，对数据库中的每个图从1到k的构造子图，并计算每个子图的支持度。