浅谈 image caption 相关知识点及优秀链接

最新推荐文章于 2025-02-17 17:23:10 发布

原创

最新推荐文章于 2025-02-17 17:23:10 发布 · 3.5k 阅读

·

11

·

本文深入探讨了图像标题生成（image caption）技术，包括encoder-decoder框架、Seq2Seq模型及其优化，特别是Attention机制的应用。文章还介绍了相关的优秀论文、代码复现资源，并讨论了基于深度学习的优化方法，如改进的attention机制和强化学习策略。同时，涵盖了数据集、图像处理方法和文字生成方法的基础知识。

框架

encoder-decoder

中间向量长度是固定的（缺陷）
( 语义向量无法完全表示整个序列的信息，先输入的内容携带的信息会被后输入的信息稀释掉 )
输入信息太长，会丢失信息（缺陷）

Seq2Seq

输入输出序列长度可变
- 输入输出固定长度，长度稍微变化，补零

encoder-decoder & Seq2Seq

Seq2Seq 属于 Encoder-Decoder 的大范畴
Seq2Seq 更强调目的，Encoder-Decoder 更强调方法

Attention

解决信息过长，信息丢失
Encoder 不将输入序列编码为固定长度的中间向量C，
编码成向量序列

生成顺序：

解决输入输出是固定长度，长度有变化，补零： Seq2Seq
解决中间向量固定：Attention

在这里插入图片描述

优化

SGD（minibatch stochastic gradient descent）：负责采样
Adadelta：负责优化下降方向

改进

attention机制
visual sentinel 哨兵机制
CNN改进
强化学习训练模型
目标检测

在这里插入图片描述

在这里插入图片描述
图片出自：Image2Caption

优秀论文解析链接

Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning --------文章 1（内含代码链接） ------- 文章 2

代码复现 - 单文

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。