关于大模型的见解

原创已于 2023-07-19 23:21:57 修改 · 314 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#深度学习 #机器学习 #大模型

于 2023-07-19 23:21:12 首次发布

解读：https://arxiv.org/pdf/2303.18223v10.pdf
------------------------------------------------------------
RNN->word2vec->LSTM->self-attention->Transformer->BERT
先有了PLM，后来发现可以增加计算量，参数量
数据量，来获得超级好的模型，所以LLM

1.代码没有公开，细节没有公开，很难复现，
不知道数据集是如何制作的
2.很难复现，需要大量的计算资源2048个A100-80G GPU以上
3.LLM为什么能获得如此神秘的能力，我们还不知道

1.将带来新的应用生态，windows的copilot
chatgpt，等插件
2.openai将计划开发AGI通用智能体

---------------------------------------
影响模型性能的三大要素：模型大小，数据量大小，计算量大小
分布式训练
InstructGPT-解决了拒绝回答侮辱性语言
使用外部工具进行数学计算，图片分割等

目前国内大部分都是：接口式调用

而没有对大模型进行研发，而有能力研发的，可能就华为，阿里这样的公司了，期待国内的大模型

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。