博客加速分化：关于大模型走势的十个判断-上

加速分化：关于大模型走势的十个判断-上

数栈君发表于 2024-03-21 14:15 545 0

大模型进入加速发展的第二年，技术迭代和竞争更为激烈。令全球震撼的文生视频Sora世界模拟器、拥有更强智能的谷歌Gemini 1.5、Meta的世界模型的雏形V-JEPA同一天推出，Claude3超越了GPT4的能力。Open AI的GPT5呼之欲出，奥特曼不仅自研芯片、还投资了数家可控核聚变公司，储备未来的关键资源——算力和能源。

在算力紧平衡、数据资源荒即将到来的背景下，面对纷繁复杂、日新月异的变革，笔者试图对未来大模型的发展做出一点预判，纯属个人研究中的感受，供大家参考。也非常欢迎大家探讨交流，批评指正，共同迭代认知，一起进步。

判断一：中国基础大模型的数量会快速收敛，卷不动了

据不完全统计，中国有超过200个大模型，也被称为“百模大战”。但进入2024年，随着Claude3等基础大模型能力的加速提升，Sora视频大模型能力的惊人进步，国内一些资源不强的，以及所谓的“套壳”大模型厂商会望而却步，无法保证在算力资源、人才密度上的持续跟进，进而放弃在基础大模型领域的投入，行业将呈现几家大厂+10家以内明星创业企业同台或联手竞技的格局。

从国外看，大厂加创业公司的模式，是行业的一个突出特点。比如微软和Open AI，谷歌和Deepmind，亚马逊和Anthropic的组合。就连过去投资活动并不显著的芯片巨头英伟达，2023年也投出了35个生成式AI相关项目，比2022年多6倍。而且从国外来看，基础大模型领域，也并未出现百模大战的“盛景”。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/defe4937029d87c34ce11e9ebe5d094e..jpg

判断二：万卡是一个入门的算力

近日有媒体报道，AI问答引擎Perplexity的创始人兼首席执行官Srinivas 在《Invest Like The Best》播客的最近一期节目中表示：“我试图从Meta聘请一位非常资深的研究员，你知道对方怎么回应吗？——等你有了10000 块 H100 GPU再来找我。”

虽然只是一则招聘吐槽，但也表明了当前基础大模型训练对算力的巨大需求。在“大力出奇迹”的大模型范式下，算力的多少一定程度上决定了智能的高低。据传GPT4训练大概用2.5万张A100，GPT5训练大约用5万张H100（约等同于15万张A100的算力）。扎克伯格近期表示，计划今年年底前向英伟达购买35万张H100芯片，将形成相当于60万张H100的总算力，训练Llama 3大模型，以追赶GPT5。据报道，0pen Al创始人奥特曼正在筹集多达7万亿美元资金，用于自研AI芯片，以推动其大模型的迭代。（被业界质疑夸张，因2023年全球半导体市场规模为5330亿美元）

反观国内，2023年前三季度，根据英伟达中国营收推算，中国约新购买了相当于58万张A100的算力，但还远不如Meta一家企业从英伟达获得的算力。美国芯片禁令下，中国无法补充先进算力，导致处于严重被动。国内芯片厂商如华为、海光等，受制于产能问题，供货量距离大模型训练需求尚有较大缺口。同时，相比CUDA，国内软件生态薄弱，国产AI芯片普遍存在适配周期长、成本高、难度大等问题，无形中延长了国产大模型训练周期。

判断三：大模型的能力取决于一个团队金字塔顶尖人才的认知，小团队也能涌现高智能

大模型是一个复杂的算法和工程难题，而这一轮大模型的发展，很大程度上是由顶尖人才驱动的，人才密度和强度至关重要。OpenAI的三位灵魂人物是CEO Sam Altman、总裁Greg Brockman，以及图灵奖得主辛顿的爱徒，首席科学家伊利亚。他们在Open AI成立的前七年间，在无收入的情况下，坚定AGI信仰，并持续投入数十亿美元，即便受到无数的不解和嘲讽也保持初心，才造就了ChatGPT一鸣惊人的神话。

被寄予厚望的Claude模型公司Anthropic，是由OpenAI 前研究副总裁Dario Amodei、GPT3论文一作Tom Brown等人在2021年共同创立。创始成员大多为 OpenAI的核心员工，曾经深度参与过GPT3、引入人类偏好的强化学习等多项研究。创始成员对于大模型的深刻理解，是Claude3今天取得突破性进展的重要原因。

Character.ai是用户访问量仅次于GPT的聊天陪伴应用，这家独角兽虽然只有22人，但其创始人Noam Shazeer是Google的前 200 号员工，在Google工作的 17 年中，他参与了Google的一系列AI项目和研究，是《Attention is All You Need》论文，也就是Transformer架构的核心作者，以及Google LaMDA项目的核心成员。

在开源领域效果和口碑很好的Mistral，人数也仅有20多人，成立于2023 年5 月。公司由前DeepMind、前Meta科学家创办而成，具备深厚的技术背景。三位创始人皆具有大模型开发经验，参与过LLaMA系列大模型的开发。在基准测试中以81.2%超越了谷歌Gemini Pro、GPT3.5、Meta Llama 2-70B三款模型，仅次于GPT4。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ed52e9c332686c664508ff5d279d8777..jpg

判断四：开源大模型难以胜过闭源

开源是软件领域多年来的重要趋势，全球优秀的开发者在各种开源软件上的持续贡献，不仅持续优化软件版本，也造成了各类应用生态的繁荣。可以说，开源对于当今的IT技术体系的发展功不可没。

但从GPT3开始，Open AI选择了闭源的方式，让最领先的大模型的开源之路戛然而止。当前，业界口碑较好的开源大模型基本均处在GPT3.5的水平，包括Meta的LLaMA2，Mistral的Mistral 8x7B、智谱的ChatGLM-6B、GLM-130B等。2月底，谷歌开源了Gemma系列模型，分为2B和7B两种尺寸，2B版本可直接在笔记本电脑上运行。近日，马斯克也表示，本周将开源xAI自己的大模型Grok。

对于大模型而言，每一个大版本的迭代都具有很强的代际碾压效应，这导致很多基于GPT创业的小公司面临一夜之间倒闭的风险。如读文件的ChatPDF、明星独角兽Jasper等，都被GPT的更新所碾压。甚至有行业开发者表示，千万不要基于 Open AI 做 PaaS，否则必然会被 Open AI 的下一个版本替代。因此，在原有开源基础模型上做优化的方式，很可能被下一个版本的功能所替代。而且更为重要的是，原有的开源方式更适合做生态，即在底层内核保持相对稳定的基础上，通过开源来实现应用的创新，但受限于算力和算法等，开源生态的开发者没有能力对基础大模型给予能力迭代的贡献，这使得原有集众智的开源模式很难在基础大模型自身的快速演进上复现。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/90e5c21514272f5fbb9d247d7bccf5cb..jpg

判断五：能走多远，取决于对AGI和Scaling Law的信仰

以Open AI为代表的大模型企业对AGI的信仰，开始获得了越来越多的认同，Sora从视频理解到世界模拟器的路径，杨乐昆的世界模型构想，都是产业界希望通往AGI的努力。

大力出奇迹的范式，在当下证明是最为有效的路径，包括Sora的成功，也再次验证了除文字领域，视频领域的Scaling Law也同样有效。Open AI把Scaling Law作为企业的核心理念，其原话为：“We believe that scale-in our models, our systems, ourselves, ourprocesses, and our ambitions-is magic. When in doubt, scale it up”

本文系转载，版权归原作者所有，

转载自公众号腾讯研究所，如若侵权请联系我们进行删除！

《行业指标体系白皮书》下载地址：https://www.dtstack.com/resources/1057/?src=bbs

《数据治理行业实践白皮书》下载地址：https://www.dtstack.com/resources/1001/?src=bbs

《数栈V6.0产品白皮书》下载地址：https://www.dtstack.com/resources/1004/?src=bbs

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

Retrieval Augmented Generation Outdated Information Contextual Understanding 基础大模型 (Basic Large Models) Sora世界模拟器 (Sora World Simulator) 技术迭代 (Technological Iteration) 大数据大模型大模型 (Large Models)

0条评论

上一篇：高级检索增强生成技术(RAG)全面指南：原理、分块、编码...

下一篇：加速分化：关于大模型走势的十个判断-下