一觉醒来 AI科技圈发生的大小事儿 05月02日

中国人民大学团队的VDT在视频生成领域超越Sora,凭借Transformer改进和时空分离机制;华为余承东卸任,何刚接任,华为终端业务持续增长;OctopusV3作为轻量级多模态AI模型,以10亿参数媲美大型模型,在资源受限设备上高效运行。

📳人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会

中国人民大学团队与OpenAI进行了三次大撞车,最新一次是在Sora上;团队在视频生成领域采用了Diffusion Transformer,引入统一的时空掩码建模;VDT使用Transformer基础模型,能更好捕捉时间依赖性;模型效果与训练消耗的计算资源正相关;VDT采用时空分离的注意力机制,与Sora的时空合一有区别;通过token concat方式实现快速收敛和良好效果;团队在物理规律模拟方面取得了成功,认为只要获得更多算力,超过Sora并不难。

🔗

b76c4128a822bda5274589d62741bd52.jpeg

📳余承东卸任华为终端BG CEO,何刚将接任

华为宣布余承东将卸任终端BG CEO一职,但仍保留董事长职位,何刚接任CEO。余承东自1993年加入华为,历任多个职务。何刚曾主导华为Mate及P系列手机研发。余承东与何刚合作期间,华为终端业务收入快速增长。华为2024年第一季度财报显示营业收入同比增长36.66%,归母净利润同比增长约564%。余承东在新年信中提到2024年是鸿蒙的关键一年,要加快推进原生鸿蒙应用开发。

🔗

4231c34aa0fd06cf1bc225cd6861e013.jpeg

📳参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

多模态AI系统能处理自然语言、视觉、音频等数据,Octopus v3模型为边缘设备设计,参数量优化至10亿内,支持英文和中文,可在资源受限设备上高效运行。模型结合因果语言模型和图像编码器,采用functional token进行视觉信息编码,通过多阶段训练提升模型性能。实验结果显示,10亿参数的Octopus v3模型在多个功能任务上效果与GPT-4V和GPT-4组合相媲美。模型的可扩展性使其适用于医疗、金融、客户服务等领域,推动AI技术民主化。未来研究方向包括容纳音频、视频数据模态的训练框架和优化推理速度。

🔗

4505fd64a254d0cf611469e97c5e12bf.jpeg

https://treasure-dosa-3b2.notion.site/ce9c3b7b83dc414c987125992b664ac1?v=4e8ab401a80f43bfa5e58c46ad59ce44

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文浩AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值