一觉醒来 AI科技圈发生的大小事儿 05月02日

最新推荐文章于 2026-06-25 17:59:30 发布

原创最新推荐文章于 2026-06-25 17:59:30 发布 · 472 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#AIGC

AIGC 专栏收录该内容

51 篇文章

订阅专栏

中国人民大学团队的VDT在视频生成领域超越Sora，凭借Transformer改进和时空分离机制；华为余承东卸任，何刚接任，华为终端业务持续增长；OctopusV3作为轻量级多模态AI模型，以10亿参数媲美大型模型，在资源受限设备上高效运行。

📳人大卢志武：只要拿到更多算力，超过Sora也不是那么难的事｜中国AIGC产业峰会

中国人民大学团队与OpenAI进行了三次大撞车，最新一次是在Sora上；团队在视频生成领域采用了Diffusion Transformer，引入统一的时空掩码建模；VDT使用Transformer基础模型，能更好捕捉时间依赖性；模型效果与训练消耗的计算资源正相关；VDT采用时空分离的注意力机制，与Sora的时空合一有区别；通过token concat方式实现快速收敛和良好效果；团队在物理规律模拟方面取得了成功，认为只要获得更多算力，超过Sora并不难。

🔗

📳余承东卸任华为终端BG CEO，何刚将接任

华为宣布余承东将卸任终端BG CEO一职，但仍保留董事长职位，何刚接任CEO。余承东自1993年加入华为，历任多个职务。何刚曾主导华为Mate及P系列手机研发。余承东与何刚合作期间，华为终端业务收入快速增长。华为2024年第一季度财报显示营业收入同比增长36.66%，归母净利润同比增长约564%。余承东在新年信中提到2024年是鸿蒙的关键一年，要加快推进原生鸿蒙应用开发。

🔗

📳参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

多模态AI系统能处理自然语言、视觉、音频等数据，Octopus v3模型为边缘设备设计，参数量优化至10亿内，支持英文和中文，可在资源受限设备上高效运行。模型结合因果语言模型和图像编码器，采用functional token进行视觉信息编码，通过多阶段训练提升模型性能。实验结果显示，10亿参数的Octopus v3模型在多个功能任务上效果与GPT-4V和GPT-4组合相媲美。模型的可扩展性使其适用于医疗、金融、客户服务等领域，推动AI技术民主化。未来研究方向包括容纳音频、视频数据模态的训练框架和优化推理速度。

🔗