深度学习图像生成评估:FID、Inception Score与KID的实战解析

1. 为什么我们需要评估生成图像的质量?

玩过AI画图的朋友肯定都有过这样的体验:你输入一段描述,模型吭哧吭哧给你吐出来一张图,乍一看好像还行,但仔细瞅瞅,总觉得哪里不对劲。可能是人脸歪了,可能是手指多了一根,也可能是整个画面糊成一团,细节全无。这时候,光靠我们自己的眼睛来判断“这张图好不好”,就非常主观了。你说好,我说不行,谁也说服不了谁。

在研究和工业应用中,这个问题就更严重了。我们训练一个图像生成模型,比如现在很火的Stable Diffusion、DALL-E,或者更早的GAN,投入了大量的算力和时间。模型迭代了一版又一版,我们怎么知道新版本是不是真的比旧版本强?总不能每次都找一群人来打分吧,那效率太低,成本太高,而且人的标准还不统一。

所以,我们需要一个客观的、量化的“裁判”。这个裁判不看心情,只认数据,能告诉我们:模型A生成的图片,在“逼真度”和“多样性”上,到底比模型B好多少。这就是图像生成评估指标存在的意义。它们不是完美的,但在目前的技术阶段,是我们衡量模型进步最核心的工具。今天我们要聊的FID、Inception Score和KID,就是裁判团里的三位“王牌评委”。

2. 三位“王牌评委”的自我介绍

在深入代码之前,我们得先搞清楚这三位评委各自看中的是什么,打分标准又是什么。别被那些数学公式吓到,我会用最生活化的例子给你讲明白。

2.1 FID:注重整体“气质”的严格考官

FID,全称是Frechet Inception Distance,你可以把它想象成一位注重整体“气质”和“分布”的考官。

它怎么工作呢?假设我们有两个班级:一个是“真实图片班”,里面全是高清无码的真实世界照片;另一个是“生成图片班”,里面全是你的AI模型画出来的图。FID考官不会去一张一张对比两个班里谁和谁长得像,它觉得那样太慢、太片面。

它的做法很聪明:它请来一位名叫“Inception-v3”的、经验丰富的“特征提取专家”(这是一个在ImageNet上预训练好的深度卷积神经网络)。这位专家会把两个班级的每一张图片都看一遍,但不是看像素,而是提取出每张图片最本质、最高级的“特征”。比如,这张图是关于猫的,那它有毛茸茸的纹理、尖耳朵、胡须等特征;那张图是关于汽车的,它有流线型车身、车轮、车窗等特征。

提取完所有图片的特征后,FID考官就开始干活了。它把“真实图片班”所有图片的特征,看作一个多维空间里的一个“云团”;把“生成图片班”所有图片的特征,看作另一个“云团”。FID值,本质上就是计算这两个“云团”之间的一个距离。这个距离综合考虑了两个方面:第一,两个云团的中心点离得远不远(均值差异);第二,两个云团的形状像不像,是胖是瘦,是圆是扁(协方差差异)。

所以,FID值越小,说明两个云团越接近,意味着你生成的图片整体分布和真实图片越像,质量也就越高。 它评估的是“整体逼真度”和“多样性”的综合性匹配。我自己的经验是,在比较相近的模型时,FID降低个5到10点,往往就能感觉到生成效果的明显提升。

2.2 Inception Score:追求“清晰”与“多样”的双面判官

Inception Score,简称IS,这位判官的打分思路和FID不太一样。它只盯着“生成图片班”自己看,不直接和“真实图片班”比较。它的核心诉求有两个:清晰可辨丰富多样

它同样请来“Inception-v3”专家。对于“生成图片班”里的每一张图,专家会给出一个概率分布,预测它属于1000个ImageNet类别中的哪一个。IS判官就根据这个分布来打分:

  1. 清晰可辨:如果一张生成图片,专家能非常自信地把它归到某一个具体的类别(比如“波斯猫”),而不是模棱两可(比如30%是猫,30%是狗,40%是毛绒玩具),那么这张图就被认为是“高质量的”、“清晰的”。在数学上,这对应着预测概率分布的“熵”很低。
  2. 丰富多样:光清晰还不够,如果整个“生成图片班”画出来的全是“波斯猫”,那这个模型也太无聊了。IS判官希望看到,所有生成图片的类别预测分布,汇总起来之后,能均匀地覆盖很多不同的类别。也就是说,模型既能画猫,也能画狗、画车、画房子。这在数学上对应着所有图片平均预测分布的“熵”很高。

Inception Score就是把这两个方面结合起来(清晰度的低熵和多样性的高熵)计算一个值。IS值越高,意味着生成的图片不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值