什么是大模型?
给大模型下定义之前,先讲一个运营商员工非常熟悉的场景:运营商的每个分支机构,无论是省分公司、市分公司、县分公司还是最小单元,每个月都会耗费精力做一次或多次经营分析,这样的经营分析建立在以往生产经营数据的基础上,对后续生产经营活动进行总结或预测,而经营分析的基础是运营商分支机构所辖用户的消费数据。过去这种分析行为叫大数据分析,而当数据量足够多,达到数十亿、数百亿,且每月能自动、智能地生成经营分析结果,这一过程就能通过大模型实现。
大模型,指的是具有大规模参数和复杂架构的人工智能模型。
大模型通常基于深度学习技术,通过海量数据训练,学习到各种知识和模式。大模型能够理解并处理自然语言、图像、音频等多种类型数据,完成文本生成、语言翻译、问题回答、图像识别、语音识别等多种复杂任务。
训练大模型需要具备三大前提条件。一是大规模数据。大模型需要大量的、多样化的数据进行训练,以提高模型的泛化能力和准确性。二是巨大的参数量。大模型参数量越多,其表达能力和学习能力就更强。三是高性能计算资源。训练和运行大模型往往需要强大的计算能力,需要GPU集群等提供算力资源。
大模型并非最新提出的概念,而是早已有之,最早可以追溯到20世纪50年代,大模型的发展大致经历了三个阶段。
第一阶段可称作萌芽期(1950—2005年),是以CNN为代表的传统神经网络模型阶段。其中具有代表性的事件有:1956年计算机专家约翰·麦卡锡提出“人工智能”概念,AI发展从最开始基于少数专家的知识学习逐步发展为基于机器学习;1980年卷积神经网络的雏形诞生;1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,发展为基于深度学习的模型。
第二个阶段可称作探索沉淀期(2006—2019年),是以Transformer为代表的全新神经网络模型阶段。其中具有代表性的事件有:2013年自然语言处理模型Word2Vec诞生,成为首次提出将单词转换为向量的“词向量模型”;2014年被誉为21世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入生成模型研究的新阶段;2017年谷歌颠覆性地提出了基于自注意力机制的神经网络结构——Transfo


1万+

被折叠的 条评论
为什么被折叠?



