对话季宇:大模型非必须在GPU跑,CPU内存带宽已足够

出品 | 虎嗅科技组
作者 | 丸都山
编辑 | 苗正卿
头图 | 行云集成电路
在北京万泉河畔的一幢写字楼内,我初次见到季宇。
他的身上有着多个令人瞩目的标签:前华为 " 天才少年 ";昇腾编译器专家;清华大学计算机科学博士;CCF(中国计算机学会)优秀博士学位论文获得者。
两年前,季宇从华为离职后,创办了行云集成电路,走上了自研 GPU 的道路。
而相较于他本人,更令我印象深刻的是他的办公室——各类物品摆放得井然有序,房间内纤尘不染,这样极致的整洁度,在工科背景的创业者中实属少见。
" 主要原因是平时都在工位办公,所以办公室才能保持整洁。" 正当我发出赞叹之时,季宇将手指向屋外,做出了补充说明。
这种令人猝不及防的 " 坦率 ",在接下来两个小时的对谈中,上演了多次。
比如在谈到公司前不久发布的 DeepSeek 一体机 " 褐蚁 " 时,他甚至直接用 " 组装机 " 一词来代指。

对于关注 AI 行业的人来说,"DeepSeek 一体机 " 的概念一定不会感到陌生,这是一种融合了高性能硬件、模型算法框架和行业应用软件的集成化计算设备,也可以粗暴地理解为 " 一台本地部署 DeepSeek 模型的电脑 "。
当然,在硬件层面,DeepSeek 一体机离不开上游产业链的支持,通常都是 " 英特尔 / 国产 CPU+ 英伟达 GPU+ 一定数量的系统盘 / 内存盘 " 组合。
这也是季宇将 DeepSeek 一体机称之为 " 组装机 " 的原因。
不过,相较于过去家用的组装机,DeepSeek 一体机的 " 攒机成本 " 要高的多,比如在一台机器里放置 8 张 H20 芯片,仅 GPU 这项成本就奔着 80 万去了。因此,通常 DeepSeek 一体机报价都在百万级区间。
而在季宇看来,现阶段的大模型本地部署,成本上完全可以实现一个 " 数量级的降低 " ——从百万级拉低至十万级。
这是如何实现的?季宇给出的回答让人惊掉下巴。
" 现在的大模型其实是不一定必须在 GPU 跑,CPU 的内存带宽已经足够,CPU 的内存可比 GPU 的显存便宜多了。" 季宇解释道。
这番言论着实有些反常识。
因为在传统认知里,CPU 内存的容量大,但带宽低;GPU 显存的容量小,但带宽高。又因为大模型涉及大量的数据并行处理,对存储带宽有着很高的要求,因此在大模型训练和推理的过程中,GPU 要比 CPU 更加适合,这是业界公认的事实。
在我抛出疑问后,季宇现场给我算了一笔账:
" 最新的服务器级 CPU,已经配备了 12 内存通道,DDR5 的内存频率是 6400M,再结合双路服务器的形态,顶级的 CPU 内存带宽可以达到 1.2TB/s,已经超过 RTX 4090(1TB/s)的水平。"
可即便大模型可以通过 " 跑在 CPU" 上的方式,来大幅降低成本,那么对于季宇和他所创立的行云来说,技术护城河是什么呢?业内其他公司同样可以复制这个技术路线。
更重要的是,作为一家主业为 GPU 研发的公司,却站出来否定 GPU 在大模型时代的重要性,多少有点 " 左右互博 " 的意味。
对此,季宇解释道," 现在我们用的公版 CPU,它不是为了大模型而定制的,我们需要的是 CPU 内存,但 CPU 上配备的几百个物理核是用不上的,所以我们会重新设计一款芯片,它当然还是高性能计算卡,但与现在英伟达主推的 GPU 完全不是一个概念。"
值得一提的是,季宇自称是个 " 资深 NV 吹 ",非常推崇黄仁勋的经营哲学,在他看来,英伟达能够在短短两年内掀翻英特尔的行业地位,背后源于黄仁勋十余年的系统性布局,从最早期的对元宇宙、比特币、生物医药等领域的投资,以一种 " 润物细无声 " 的方式,向行业证明 GPU 未来要比 CPU 重要。
某种程度上,现在的季宇会想到去做一款 DeepSeek 一体机,也是受到黄仁勋的启发。
" 我们对于这个产品的定位,可能更偏向于 PoC(概念验证),我不需要它赚多少钱,但我要向行业证明这个路线是可行的,如果行业里能有大批玩家接受,我们就能通过自研的芯片,为他们提供更低成本的方案。"
这位 " 资深 NV 吹 ",似乎正在通过黄仁勋的方式,来挑战英伟达的权威。
以下为笔者与季宇交流实录,部分内容略有删减:
虎嗅:你之前在华为是做编译器开发的,为什么创业后会想到跨领域做 GPU?
季宇:其实我在学校时研究的方向和入行后的工作,也没什么相关性。我那会学的是体系结构,算是与芯片架构相关。当时选择编译器时因为我发现行业内做了很多不错的芯片,但是最后商业化的时候还是卡在了软件生态这件事情上。我觉得要考虑它上面的编译器软件应该怎么去搭建,才能解决它这个端到端的问题。
后来做 GPU 是因为在大模型出来后,我意识到这件事情的长期确定性是非常高的。而且本身我们就是愿意去做这种新的事情。因为你做老的事情其实是没有太多的机会的对吧?因为老的事情格局,包括这个行业的秩序,其实都已经逐渐成型了你只有新的行业才有这个探索的可能性,也才适合创业公司。
虎嗅:从创业至今,你做过的最难的一次决定是什么?
季宇:可能出来创业这件事本身最难的,因为我得先想清楚,就是把商业逻辑想清楚,剩下的所有的事情都可以边干边学。
虎嗅:那在 GPU 行业里,你想清楚的商业逻辑是什么?
季宇:就是今天如果大家按照 NV 的路线去追赶 NV,是不可能挑战成功的,计算机历史上就没有发生过。
我们可以回顾下,当年英特尔是怎么挤掉 IBM 成为行业龙头的?它不是靠我做了一个性能超强的大型机,而是靠 8086 这种毫不起眼的小芯片,最后推动了 PC 产业革命,让大家逐渐抛弃大型机,甚至后来集群也抛弃了大型机。
后面英伟达取代英特尔也是一样的,NV 不是在做了一个性能多么强的 CPU,而是告诉大家 GPU 可以用来做什么,它用了十年的时间直接把 CPU 在计算机行业中的历史给抹掉了。
虎嗅:所以当下行业中会发生这样的 " 新旧交替 " 的机会吗?
季宇:我觉得最重要的一个事情是要把大模型从超算竞争变成消费电子竞争,让每个人都用得起你,这个才能真正进入经济循环,进入各行各业。
所以我们大的逻辑是希望我们做的产品,是能够在像今天的消费电子一样的价位,同时又能够把今天超算才能做的这些最高质量的大模型,能用这样的产品能够支撑起来。
虎嗅:我们做的 DeepSeek 一体机 " 褐蚁 ",为什么能把价格拉低到 " 十万元 " 档?
季宇:今天核心的矛盾是在于模型需要的显存跟今天单张卡的显存 gap 太大了。所以导致大家今天可能为了跑这样一个模型,得凑非常多的 GPU,自然而然把整个行业的形态推成了一个 8 卡 16 卡的服务器的形态,然后价格都是上百万的。
但现在 CPU 的内存带宽也完全能够满足大模型的,顶级的服务器级 CPU 的内存带宽可以达到 1.2TB/s,已经超过 RTX 4090(1TB/s)的水平,而且它的容量也比 GPU 大的多,最重要的是跟动辄几百万的超算相比,内存条就相当于是不要钱了。
虎嗅:那行业内其他厂商没有意识到这个问题吗?
季宇:一方面,计算机行业是个惯性很大的行业,当所有人都习惯用 GPU 去做训练的时候,人们自然不愿意轻易尝试其他方案。
另一方面,可能大家都觉得用内存跑大模型,充其量只能达到 Mac Studio 那种水平,没法转化为生产力,但我们想通过极致的软件优化来把这么高的带宽水平发挥出来。让大家使用体验真正能达到,跟一个超算的体验没有什么区别。
虎嗅:我看到 " 褐蚁 " 的配置基本都是公版的,那这个行业存在硬件门槛吗?
季宇:我希望推动这个应用普惠,就应该用最普通的东西,大家都习以为常的东西,然后把这样的一个事情变成大家都用得起来,我觉得这才是一个关键。而不在于说你们一定要做一个什么门槛,然后让别人都进不来,其实这个不是我们期望的。
虎嗅:我们现在做的 DeepSeek 一体机,和行云的核心业务(自研 GPU),有什么关联性吗?
季宇:我们自研的 GPU,可以进一步降低整机的成本。
举个例子,比如现在的 CPU 和 GPU 是为了大模型一体机设计的吗?肯定不是,它的价值是建立在别的方面,但有些东西我们是可以扔掉的,但是有些东西我们是可以加强的,可能它非常不重要的一件部件,我们是值得强化的,而它很重要、甚至建立整个价格梯度的东西,我们是可以抛弃的。
虎嗅:能否展开讲讲,哪些是值得强化的?哪些是可以抛弃的?
季宇:比如 CPU 里的物理核,很多我们都用不上的,我们今天的重点是 DDR 内存,之是为了把 DDR 内存用起来,才用了这个 CPU,至于它有几百个核跟我没有关系,我们只选了一个 32 核的,也完全能拉满内存通道带宽,而我们自己设计的芯片就可以把这些多余的物理核去掉,最大程度发挥 DDR 内存的性能,同时也能让成本大幅降低。
虎嗅:对于应用端来说,他们会很看重这种一次性成本吗?
季宇:如果行业里都是一台上百万的超算,那么行业可能就会卡在那边,大家会一直在想 AI 到底能做什么事情,云厂商天天想我到底找什么超级应用?这个其实对所有人都是难受的。大家更在乎就是说只要这个价位降到一定的水准之后,这个行业是有可能爆发的。
我可以再举一个例子,我们接下来还会发布一个叫 " 蚁群 " 的项目,就是用一堆 " 褐蚁 " 去做集群,大概 300-400 万的预算,我们就能实现 500-1000 的并发,这是什么概念?一千并发差不多可以支持 10 万 DAU,那意味着很多小的创业团队都可以出来做了,大家一起去挖掘。