[MM 18] Semantic Human Matting
摘要
- 首次实现无需Trimap方式生成alpha图
- 提出了新的fusion的策略,用概率估计alpha matte
- 构造了新的数据集
Human Matting数据集
文章使用了两个数据集。
- Fashion Model dataset: 淘宝自己的电商人像数据集,数据量巨大,不仅包含人像,可以包含人的身体的部位和不同的姿势。
- DIM dataset: 前面一文的数据集。

方法

SHM为了捕获粗糙的语义分割的分类信息,和细粒度的matting信息,将网络分成两个部分。
- TNet: 对前景、背景、未知区域做像素级别的分类。
- MNet: 将TNet的输出当做输入,生成更加精细的alpha matte。
- 两个网络的输出经过Fusion Module生成最终的结果
1. Trimap generation: T-Net
T-Net作用是进行语义分割,大致的估计出前景区域:生成3个通道的特征图,代表前景、背景和未知区域(PSPNet-50)
2. Matting network: M-Net
类似DIM的Encoder-Decoder的结构。
将RGB的输入图和3通道的T-Net的输出构成一个6通道的输入。
Encoder有13个卷积层和4个Max-pooling层
Decoder有6个卷积层和4个Unpooling层
跟DIM的区别:
- 输入是6通道而不是4通道
- 加上BN
- conv6和deconv6被移除,防止过拟合
3. Fusion Module
用F,B,U代表前景、背景、未知区域。
T-Net的输出经过softmax.因此属于前景的概率可以写为:
F s = e x p ( F ) e x p ( F ) + e x p ( B ) + e x p ( U ) F_s = \frac{exp(F)}{exp(F) + exp(B) + exp(U)} Fs=exp(F)+exp(B)+exp(U)e


1295

被折叠的 条评论
为什么被折叠?



