
一、种子萌芽:一个广东少年的AI梦
在浙江省杭州市拱墅区一栋不起眼的办公楼里,一家创立不足两年的公司,正在悄然搅动全球AI格局。这家公司名叫DeepSeek(深度求索),它的故事,要从一个出生于广东湛江普通农村家庭的少年说起。
1985年,梁文锋出生在广东湛江吴川市覃巴镇的一个普通农村家庭。他的父亲是一位小学教师,家境并不富裕。在1990年代的广东,“赚钱机会很多,当时有不少家长到我家里来,(说的)基本就是家长觉得读书没用”。但梁文锋从小就对数学和科技展现出浓厚兴趣,在奥数竞赛中屡获佳绩,成为众人眼中的“天才少年”。
2002年,17岁的梁文锋以吴川市第一中学高考状元的身份,考入浙江大学电子信息工程专业人工智能方向。大学期间,他常常泡在实验室研究机器视觉,甚至自费购买零件组装设备,不断提升实践能力。本科毕业后,他继续在浙江大学攻读信息与通信工程硕士学位,硕士论文研究的是《基于低成本PTZ摄像机的目标跟踪算法研究》。
值得一提的是,梁文锋身上没有任何“海归”光环——他没有海外留学经历,也不是奥林匹克竞赛获奖者,是一位土生土长的技术专家,行事极其低调,据说每天就是“看论文,写代码,参与小组讨论”。
正是在攻读硕士期间,梁文锋对金融市场产生了浓厚兴趣,开始与同学一起探索机器学习技术在量化交易领域的应用。
二、量化积累:15年磨一剑
2008年,全球金融危机爆发,金融市场动荡不安。但梁文锋却从混乱中看到了机会。他和团队敏锐捕捉到机器学习技术在量化交易中的巨大潜力,开始积累市场行情、金融和宏观经济数据,探索全自动量化交易。
2013年,硕士毕业后的梁文锋与同学徐进共同创立了杭州雅克比投资管理有限公司,正式投身量化投资领域。2015年,他们又创办了幻方量化(后更名为浙江九章资产管理有限公司),致力于通过数学和人工智能进行量化投资。巧合的是,那一年正赶上A股牛市和国内阳光私募的快速发展期。
但梁文锋想做的远不止“炒股赚钱”。2016年,幻方量化推出第一个AI模型,实现了所有量化策略的AI化转型。2017年底,其管理的资金规模已达约30亿元人民币。到2019年,这一数字突破百亿元,幻方量化迅速成为中国最大的量化基金之一。
而真正让幻方量化为日后DeepSeek打下基础的,是梁文锋在算力上的前瞻性布局。2019年,他斥资2亿元创办幻方AI公司,自主研发深度学习训练平台“萤火一号”,搭载1100块GPU显卡。2021年,他又投入10亿元建设“萤火二号”,配备万张英伟达A100显卡。当时,国内拥有超过1万枚GPU的企业不超过5家,而幻方量化就位列其中。
凭借强大的技术实力和创新精神,幻方量化的资产管理规模在2021年突破千亿元大关,跻身中国量化私募“四大天王”之一。这些财富和算力积累,后来成为DeepSeek拒绝外部融资、潜心做研发的最大底气。
三、跨界布局:DeepSeek的诞生
当人们以为梁文锋会继续在量化投资领域深耕时,一场令人意想不到的“换道”正在悄然酝酿。
2020年OpenAI发布GPT-3后,梁文锋敏锐地意识到——人工智能的发展方向已经非常清晰,算力将成为关键要素。尽管当时大多数人还无法理解,他却开始默默布局AI大模型的底层能力。
2023年5月,38岁的梁文锋正式宣布进军通用人工智能(AGI)领域。两个月后,2023年7月17日,他正式创办杭州深度求索人工智能基础技术研究有限公司,这就是今天世人熟知的DeepSeek。公司设在杭州,创始团队只有一百多人。
梁文锋在解释为何要做大模型时说:“我们做大模型,其实跟量化和金融都没有直接关系。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一。”
他并非为了追赶风口,也不是出于商业利益驱动,而是出于对AGI技术本身的探索渴望——“一个效率奇高、由众多前所未有的设计组合生成的超级工程”。
有趣的是,梁文锋给DeepSeek划了一条清晰的边界:不接受外部融资,不稀释股权,不被任何人的商业化时间表绑架。彼时,其他AI创业公司都在疯狂融资、大肆扩张,DeepSeek却像个“隐士”一样默默磨剑。
四、初露锋芒:V2与V3打破格局
真正的“表演时刻”从2024年开始。
2024年1月5日,DeepSeek发布了第一个大模型DeepSeek LLM(即V1版本),正式向公众展示了它的AI能力。但真正让行业侧目的,是同年5月7日发布的DeepSeek-V2。
V2采用了创新的MoE(混合专家)架构,将推理成本压至一个惊人的低水平——每百万token仅1块钱,约为GPT-4 Turbo的七十分之一。如此“史无前例的性价比”,一举引爆了国内外所有大厂的大模型价格战。DeepSeek被行业形容为“一条鲶鱼”,迅速引发字节、阿里、百度等大厂的跟进降价。梁文锋却谦虚地说:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”
而在V2的开发团队中,就包含了后来引发热议的“95后AI天才少女”罗福莉,以及一批毕业于清北、浙大的本土人才。梁文锋说,做出V2模型的人没有海外回来的,都是本土的年轻人、应届生和博士实习生。
2024年12月26日,DeepSeek-V3正式发布,这一次的震动更加剧烈——它以1/11的算力和约557.6万美元的训练成本,训练出性能超越GPT-4o的大模型,而GPT-4o的训练成本约为1亿美元,使用的是25000个GPU芯片。双方的训练成本差距超过10倍。在数学、代码能力和中文知识问答方面,DeepSeek-V3甚至超过了GPT-4o。
国外测评机构惊叹:“超越了迄今为止所有开源模型。”Meta科学家也感慨:“这是非常伟大的工作。”DeepSeek也被媒体誉为“大模型界的拼多多”。
五、引爆全球:R1的“DeepSeek时刻”
如果说V2和V3只是行业内部的热议,那么2025年1月20日发布的DeepSeek-R1,则真正引爆了一场地跨中美的AI狂潮。
R1的性能逼近OpenAI o1正式版,但推理成本却仅为后者的几十分之一。发布后短短一周内,DeepSeek就刷屏了美国各大主流媒体和社交网站。
1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区超越了ChatGPT。同日,它也登顶了中国区应用商店免费榜第一。全球用户争相体验这只“蓝色海豚”的AI助手,从点评学校到锐评手机厂商,从制定旅行攻略到学习方言,万物皆可“DeepSeek”。
更令行业震惊的是,DeepSeek团队仅有139名研发人员——而OpenAI拥有约1200名研究人员。用不到OpenAI十分之一的人力,做出可以对标的成果,DeepSeek被海外称为“来自东方的神秘力量”。
同一天,梁文锋参加了由国务院总理李强主持召开的座谈会,听取对《政府工作报告(征求意见稿)》的意见。他还登上了《新闻联播》,家乡父老拉横幅、立拱门欢迎他回乡。这位低调的创始人一夜之间成为全国瞩目的科技明星。
随后,DeepSeek继续加速迭代:2025年3月发布V3小版本升级,5月推出R1升级版R1-0528,8月发布V3.1引入混合推理架构,9月推出V3.1-Terminus。每一步都在强化DeepSeek在AI行业中的标杆地位。
六、急流勇退背后的“成人礼”
然而,聚光灯下的DeepSeek并非一帆风顺。
从2025年下半年开始,风光无限的DeepSeek遇到了新的挑战。一方面,在字节跳动等大厂的重投入下,DeepSeek未能保住C端用户量第一的位置。更令人心忧的是人才流失——R1大获成功后,至少有多名核心研发成员被各大科技公司以数倍薪资挖走。V3架构的关键开发者罗福莉转投小米接手AI业务,第一代大语言模型核心作者王炳宣去了腾讯,多模态核心研究员阮翀加入自动驾驶公司……
与此同时,AI行业发生了根本性的范式转变——从“Chatbot”转向“AI智能体”,从一次性训练转向持续推理。推理成本成百上千倍地增长,模型参数正从千亿级向万亿级跨越。幻方量化一年约50亿的收入,虽然在Chatbot时代绰绰有余,但在Agent时代正在变得不够用。
这也解释了2026年4月DeepSeek的两件大事:
一是启动成立以来的首次外部融资。 目标估值从100亿美元迅速抬升至200至300亿美元,腾讯、阿里正在洽谈入局。这家曾经坚决拒绝外部资本、靠创始人自有资金输血的公司,终于迈出了拥抱资本市场的关键一步。
二是发布新一代旗舰模型DeepSeek-V4。 2026年4月24日,V4预览版正式上线,拥有百万字超长上下文,在Agent能力和推理性能上大幅突破。最值得注意的是,V4首次在官方技术报告中把华为的昇腾芯片和英伟达GPU写进了同一份硬件验证清单,实现了国产芯片适配。
两件事放在一起,标志着一个“技术理想主义者”的成人礼——DeepSeek不再是那个躲在幻方量化羽翼下的低调研究机构,而是一家必须直面资本市场、人才争夺和全球AI竞赛的成熟企业。
七、结语:“东方智慧”走进现实
从一个广东农村走出的少年,到全球AI舞台上掀起风暴的创业者,梁文锋的故事诠释了一种与众不同的成功路径——用技术沉淀代替资本博弈,用长期主义代替短期投机。从2008年接触机器学习算起,他的团队在AI赛道上已经默默跑了15年,直到R1引爆全球的那一刻,才真正走进公众视野。
梁文锋曾说:“所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时去讨论通用电气和可口可乐一样,很可能是一种刻舟求剑。”
如今,DeepSeek正站在全新的起点上:国产芯片加持、资本注入、Agent时代开启。在梁文锋看来,AGI的目标并非遥不可及,而DeepSeek已经走在了通往这一目标的正确道路上。正如一位硅谷的观察家所言,中国制造的大模型“将和无人机、电动汽车一样,成为不容忽视的力量”。

441

被折叠的 条评论
为什么被折叠?



