一觉醒来 AI科技圈发生的大小事儿 04月24日

⏩昆仑万维23年收入49亿净利润13亿,研发费用增长40%,坚定All in AGI与AIGC

昆仑万维发布2023年年度业绩报告,实现营业收入49.2亿元,净利润12.6亿元,同比增长9.15%。公司坚定践行“All in AGI与AIGC”发展战略,加大研发投入,研发费用同比增长40.2%。公司构建了多元AI业务矩阵,位列国内人工智能企业第一梯队。公司发布了“天工”大模型的多个版本,包括双千亿模型架构“天工1.0”和4,000亿参数MOE架构“天工3.0”。公司在人工智能应用层取得多项进展,包括AI搜索、AI音乐、AI游戏等领域。此外,公司与阿里云、华为云达成战略合作,通过控股AI算力芯片企业完成了全产业链布局。公司旗下海外信息分发与元宇宙平台Opera保持增长,实现营业收入3.97亿美元,同比增长20%。公司以实现通用人工智能为使命,致力于成为用户首选的人工智能内容创作平台。

fb68f919bb01c7b79d3c5df6fce65b7d.jpeg

⏩Llama3后,Meta又开放自家头显操作系统,打造元宇宙时代新安卓

Meta开放自家头显操作系统Meta Horizon OS,向第三方硬件制造商开放,展示对元宇宙开放的新愿景。Meta Horizon OS是Meta十年来努力打造下一代计算平台的显著成果,结合了MR体验的核心技术和社交存在的功能。华硕、联想和微软等已经在开发基于Meta Horizon OS的新设备。Meta还在开发一个新的空间应用程序框架,帮助移动开发人员创建应用程序。

f7251641953ab5b94182210f5dcb3d56.jpeg

⏩这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

这篇文章介绍了斯坦福大学团队的一项新研究,他们声称语言模型不是一个奖励函数,而是一个Q函数。他们通过使用二元偏好反馈的常见形式推导了DPO,并证明DPO可以将语言模型与隐式的人类奖励对齐。他们的研究表明DPO训练可以隐含地学习到一个token层面的奖励函数,并且可以拟合任何在轨迹上的反馈奖励。实验结果显示DPO模型可以执行credit assignment,并具备组合泛化的能力。此外,研究还发现对DPO模型进行似然搜索类似于在解码期间搜索奖励函数,而初始策略和参考分布的选择对于确定训练期间隐性奖励的轨迹非常重要。

d84f9092d30215a82348ae0382e713b6.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文浩AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值