[AIGC知识] layout理解

最新推荐文章于 2026-03-28 03:45:54 发布

原创最新推荐文章于 2026-03-28 03:45:54 发布 · 1.1k 阅读

19 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#AIGC

前言

要开组会了，随便讲个凑数吧。
参考论文 https://arxiv.org/html/2303.17189?

什么是layout数据？

像下图这样，Layout是每个图片的布局，其中包含一些物体的相应边界框和类别
在这里插入图片描述

layout信息如何整合表示并作为条件加入到网络中去的？

a. layout信息包含内容

布局 $\{o_1, o_2, \cdots, o_n\}$ 是一组 $n$ 对象。
每个对象 $o_i$ 被表示为 $o_i = \{b_i, c_i\}$ ，
其中 $bi=(x0i,y0i,x1i,y1i)∈[0,1]4b_i=(x_0^i, y_0^i, x_1^i, y_1^i) \in [0, 1]^4$ 表示边界框(bbox)，
并且 $ci∈[0,C+1]c_i \in [0, \mathcal{C}+ 1]$ 是其类别id。

b.将layout填充为一个固定长度的序列

将 $l$ 填充到固定长度的 $k$ 中，方法是将 $o_l$ 在前面，一些填充 $o_p$ 在最后，
其中 $o_l$ 表示存在这个对象， $o_p$ 表示不存在这个对象。
比如 $b_l=(0,0,1,1)$ 、 $c_l = 0$ 表示覆盖整个图像的对象，
而 $b_p=(0,0,0,0)$ 、 $cp=C+1c_p = \mathcal{C} + 1$ 表示没有形状或不出现在图像中的空对象。
最终填充完成后就是一个由 $k$ 个对象组成的填充的 $\{o_1, o_2, \cdots, o_k\}$ 。

c.将序列转变为矩阵

通过投影矩阵 $Wb∈R4×dzW_b \in \mathbb{R}^{4 \times d_z}$ 和 $Wc∈R1×dzW_c \in \mathbb{R}^{1 \times d_z}$ ，
用公式
$B_{L} = b W_{B} \\ C_{L} = c W_{C} \\ L = B_{L} + C_{L} \\$
将布局 $l$ 变换为布局嵌入 $\{O_1, O_2, \cdots, O_k\} \in \mathbb{R}^{k \times d_z}$ 。