论文解读ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

原创

已于 2022-03-04 13:25:35 修改 · 3.5k 阅读

标签

#深度学习 #自然语言处理 #transformer

收录于

于 2022-03-03 20:40:44 首次发布

ViLBERT (short for Vision-and-Language BERT)是一个Task-Agnostic（无特定任务的）的多模态图文预训练模型。
论文链接: link.

首先从结构上来说。
在这里插入图片描述
他是一个双流的结构。这一点跟LXMERT十分的相似。本文使用faster-rcnn 来提取图片的区域特征，大多数多模态预训练模型都是使用faster-rcnn 来提取图片特征。如uniter，unimo等等。本文认为图片提取完特征是具备高层的语义信息，此时（刚embed完）文本不具备高层语意信息。所以文本是需要先通过几个transformer 模块之后再与图片特征进行交互。其结构上的创新是这个Co-Attentional Transformer Layers.

在这里插入图片描述
这个layer结构也十分简单容易理解。self-attention中的q，k，v都是来自自己的输入，只不过只不过输入通过不同的线性网络得到q，k，v。该结构中只不过是图片k，v去与文本的q做self- attention计算，文本的k，v去与图片的q做self- attention计算。简单说就是图片流中的k，v 和文本流的q 输入到文本流，文本流中的k，v 和图片流的q 输入到图片流。
其图片上结构也非常清晰。文本流 [cls]word…[sep] 先与bert的处理是一样的，通过几个标准的transformer block 后与图片流。[i

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

黑夜使者

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Cursor突然断供，还好，国产MonkeyCode来了，不仅强还安全！

m0_63171455的博客

07-25

2205

AI编程工具Cursor突遭断供，国产开源替代方案MonkeyCode强势崛起。这款清华系研发的企业级工具支持KimiK2和Qwen3双模型，具备代码补全和Agent双模式，在保持高效编程的同时确保数据安全。相较于Cursor存在的数据外泄风险，MonkeyCode提供本地化部署方案，并通过详细日志记录实现开发过程全追溯。其研发方长亭科技作为网络安全领域领军企业，后续还将集成代码安全扫描功能。在大模型技术快速发展的背景下，该工具的推出既解决了国外产品"卡脖子"问题，也为AI编程安全提供了

参与评论您还未登录，请先登录后发表或查看评论

MonkeyCode：重新定义团队 AI 开发

duohereshui5572的博客

06-12

204

MonkeyCode 的出现，标志着 AI 编程工具从个人效率工具向团队协作平台的转型。它的六大优势（免费、云端、全模型、移动端、开源、私有化）精准击中了现有个人 AI 编程工具的痛点。特别是云端开发环境 + 移动端 App的组合，重新定义了"在哪里编程"的边界。它是免费的。在 AI 编程工具普遍转向订阅制的 2026 年，MonkeyCode 选择了一条不同的路 —— 让 AI 开发能力普惠化。这值得每一个开发者关注和尝试。产品官网：https://monkeycode.com.cn/

比 Copilot 能扛事，比 Cursor 懂协作：MonkeyCode 重新定义 AI 编程

F_U_N_的博客

02-01

1147

当大多数AI工具还在比拼“生成代码的速度”时，MonkeyCode已经瞄准了更核心的问题：如何让AI真正融入研发流程，成为能扛事、可信任的队友。它不是要取代开发者，而是要把开发者从重复编码、机械Review中解放出来，专注于架构设计、需求拆解、技术决策这些更有价值的工作。如果你已经厌倦了“AI生成半成品，自己擦屁股”的低效模式，不妨用20000免费算力试试MonkeyCode——或许这就是你期待已久的“未来研发方式”。现在注册，既能白嫖算力，又能提前解锁AI全流程研发能力，何乐而不为？

MonkeyCode与Cursor对比分析：哪个更适合企业级开发？

gitblog_00822的博客

05-14

856

在当今快速发展的AI开发领域，选择合适的开发平台对企业效率和项目成功至关重要。MonkeyCode作为一款功能全面的AI开发平台，内置云端开发环境并支持业内最全的顶尖大模型，为企业级开发提供了强大的支持。本文将从多个维度对比MonkeyCode与Cursor，帮助企业决策者做出更适合自身需求的选择。 ## 核心功能对比：谁更能满足企业需求？ MonkeyCode和Cursor都以AI辅助开发为

MonkeyCode vs Cursor——为什么独立云IDE是AI编程的终极形态

duohereshui5572的博客

06-16

162

银河麒麟 V11服务器安装nginx教程、国产麒麟 V11安装nginx

my_futrue的博客

06-17

222

安装服务器前先检查服务器的内核：uname -a。银河麒麟 V11类库里的nginx版本是1.24。我拿到的是v11,所以去找银河麒麟11的类库。根据自己的实际需求安装对应类库。剩余nginx配置看自己需求，

77、线程池原理和实现------服务器源码解析----云视频服务项目

森G

06-16

130

本文介绍线程池的原理，并实现了线程池boostasio-learn: boostasio学习笔记 - Gitee.com。

零基础JavaWeb入门——第4课：表单处理 —— 浏览器怎么把数据发给服务器

2402_87686098的博客

06-14

197

本系列文章的设立直接目的是期末复习使用其次是入门相关知识，内容是根据课堂老师发的资料用deepseek整理外加自己理解整理，这是本人第一次学习相关知识，可能内容已经落伍，但主要目的是期末备考

服务器CPU多少个lane够用？

baidu_38316985的博客

06-17

293

服务器平台（Enterprise Server）——截至2026年中，Intel 和 AMD 最新一代。

零代码私有化自动化AI算法训练服务器DLTM如何破解企业AI落地难题

AI与流媒体视频技术

06-15

254

很多企业误以为自建AI模型是大型集团专属能力，深度学习推理工作站DLTM打破了这个固有认知

多层立体库与AGV调度站场景下串口转以太网模块双供电模式提升仓储设备环境适应性与作业连续性的工艺优势

yy450447591的博客

06-15

583

某智能仓储企业采用远创智控YC8000-CXD以太网通讯处理器，解决原有PLC系统设备协同差、调试慢、通讯弱等痛点。该方案通过兼容多型号PLC、双供电设计、多路TCP连接等功能，实现不停仓改造，部署效率提升80%，并发通讯零延迟。支持远程Web配置与工业级防护，使运维成本降低60%，故障率降至0，出入库效率提升12%。该方案为智能仓储提供高性价比的通讯升级路径，已获企业多仓部署验证。

产业边缘算力节点硬件调研：RTX5090 服务器市场占用数据分析

Z1980658_的博客

06-17

568

从全年市场调研数据与落地交付情况来看，在产业边缘算力节点赛道，RTX5090 8 卡机架服务器已经成为中型本地化算力底座的主流选择，市场占有率持续快速提升，核心竞争力集中在均衡算力、可控采购成本、工业边缘环境高适配性三点。云 - 边 - 端协同是行业长期发展主线，本地边缘算力需求不会短期回落。深圳市智恒百亿科技将持续迭代 7U 八卡 RTX5090 服务器硬件架构，针对工业、大模型、安防等细分边缘场景推出定制化机型，为各行业客户提供稳定、高性价比的边缘算力硬件解决方案。

Linux 搭建及配置 DNS 服务器 — 实操指南

最新发布

cpyaxjq的博客

06-17

285

本文是一篇关于在Linux系统上搭建和配置DNS服务器的实操指南。主要内容包括： DNS基础知识 DNS作用：将域名转换为IP地址系统DNS配置文件解析（/etc/resolv.conf、/etc/hosts等）常见DNS记录类型（A、AAAA、CNAME、MX等）及查询示例 DNS解析原理解析流程图示：从根服务器到权威DNS的逐级查询全球13组根服务器介绍递归解析过程演示（使用dig +trace命令） BIND9服务器搭建系统环境：Ubuntu 24.04 LTS 安装和配置BIND9服务

防火墙l2tp使用本地用户配置案例

huainingning的博客

06-16

168

如上图，防火墙作为出口安全设备，对外配置NAT实现内网用户访问互联网，对内提供l2tp vpn服务器拨入，允许外部用户拨入l2tp vpn后再访问内网服务器资源。防火墙连接互联网接口配置NAT。配置l2tp接口加入到安全域。配置l2tp vpn地址池。配置l2tp domain。配置l2tp group。配置l2tp VT接口。配置l2tp本地用户。

8×910B4-32G NPU服务器 vLLM-Ascend部署Docker安装报告

m0_57112626的博客

06-12

333

curl 返回 "content":"!├── quant_model_weights-00001-of-00009.safetensors # 权重分片1 (4.0GB)├── quant_model_weights-00002-of-00009.safetensors # 权重分片2 (4.0GB)├── quant_model_description.json # 量化描述 (124KB)# 输出: thinking process + "Expected answer: Paris"

76、仿ASIO实现的Linux c++服务器------服务器源码解析----云视频服务项目

森G

06-16

ET模式是边缘触发模式，只会触发一次，当接收缓冲区由空变为有数据，就会触发一次。如果我们不把数据读完，将来不会再次触发。LT模式，只要TCP缓冲区有数据，就会触发事件，所以可以不用读空，每次都多少取决于自己的逻辑。ET模式需要循环读取，直到读空，读空方式为EAGAIN /EWOULDBLOCK。线程池相关文档，我自己实现的。返回一个成员函数，值为模板类型。整个配置管理类是单例模式。

服务器现场排障：在 Windows 下使用 Linux reader 直接查看 Linux 系统 U 盘中的日志文件与文件结构

CingSyuan的博客

06-15

263

摘要本文介绍了在Windows环境下直接读取Linux系统U盘文件的方法。由于现场服务器缺乏网络接口且仅有一个U盘，传统网络传输或多U盘方案不可行。通过DiskInternals Linux Reader工具，可在Windows下直接识别并查看Linux文件系统（如Redhat 8.6），无需启动虚拟机或额外设备。文章详细演示了工具操作流程，包括分区识别、文件预览和日志提取，并强调该工具适合临时查看日志和配置文件，但修改文件或批量导出需付费版本。

Ansible命令

weixin_65550131的博客

06-13

589

（4）-a 代表你使用模块的详细参数，模块下的某一个具体功能。（2）-all 代表操作所有机器，可以指定某个IP/组。（3）-m 代表使用模块，你所要进行的操作。ansible 命令四大部分组成。（1）ansible头部使用命令。（1）高频核心使用模块。

低配服务器上 HBase 从部署到 Java 访问完整指南

a_Zuo_KuiPi的博客

06-17

360

向Java初学者的HBase实践指南，重点讲解如何在低配云服务器上通过Docker部署单机HBase，并使用本地SpringBoot项目实现基础CRUD操作。

高防服务器有哪些特点，对比云服务器有什么优势

shangguan_001的博客

06-17

288

若业务面临高频攻击风险，优先选择高防服务器；若需灵活扩展且攻击风险低，云服务器更具性价比。部分云服务商也提供“高防云服务器”选项，可结合需求评估。