热搜词:

Gemini 2.5弯道超车背后的灵魂人物

文 |   硅谷 101

从去年在大会前夜被 OpenAI 的 4o 模型 " 精准狙击 ",到今年 Gemini 2.5 Pro 全面霸榜。短短一年时间,Gemini 是如何完成从追赶者到领跑者的逆转?

《硅谷 101》创始人泓君邀请了 Energent.ai 联合创始人 Kimi Kong 和 HeyRevia 创始人 Shaun Wei,一起和两位前 Google 的技术专家聊聊 Gemini 模型登顶背后的底层逻辑。

以下是这次对话内容的精选 :

01 Gemini2.5 崛起背后的底层逻辑

泓君:谷歌此次发布的 Gemini 2.5 Pro,在当前各项评测中的数据都是所有大模型中最好的,Kimi 你可以分析一下它是如何做到的吗?

Kimi:我已经离开 DeepMind 快一年时间了,也不太清楚我的前同事们在这一年中又做了哪些新的创新。但大语言模型训练根本的步骤是不变的,包括以下三点:Pre-training(预训练)、SFT (Supervised Fine-tuning,监督微调)和利用 RLHF(基于人类反馈的强化学习)技术做的 Alignment(对齐)。

大概在去年的 NeurIPS(神经信息处理系统大会)上,业内已经普遍承认,公开网络数据基本都已经抓完了,就像化石燃料已经被消耗殆尽一样。因此,在过去这一年里,更多精力其实是投入到了对齐阶段,特别是强化学习方向,尤其是在 " 人类反馈 " 和 "AI 反馈 " 上的探索。比如在数学和编程类这类目标清晰且可验证的任务上。

对于 Google 来说,从 Gemini 1 到 1.5 再到 2,已经积累了相当坚实的基座模型训练经验。再加上 Google 开始更加重视强化学习的作用,不只是依赖人类反馈,而是启动了一种 " 让 AI 批判 AI" 的机制。就像当年 AlphaGo 的成功,它的核心突破点就在于下出 " 第 37 手 " 那样超越人类常规理解的棋步,是 AI 突破人类认知的体现。

所以我认为,未来的 AI 模型需要在强化学习中能实现 " 自我判断正确性 "。而在 Gemini 2.5 的训练过程中,很可能正是引入了更多此类强化学习策略,才使它在编程、数学等高确定性任务中,展现出如此令人惊艳的表现。

泓君:对,在去年大模型的训练中出现了一个比较明显的趋势,各家都在预训练基础上加入了后训练。比如 OpenAI 的 o1 系列和 DeepSeek 的 R1,都在推理任务上表现得很好。虽然 Anthropic 在很长一段时间内,并没有新推出推理模型,但 Sonnet 3.5 和 3.7,它们在代码能力上出现了明显的质变。这也带动了 Cursor、Windsurf 这样一批编程类 Agent 的迅速崛起。这次发布会 Google 也特别强调了自己在代码生成上的质量提升。

我一直很好奇的一点是:为什么 Anthropic 生成的代码质量,明显优于其他家?代码质量的提升,主要是靠什么能力实现的?

Kimi:我还是从我刚提到的三个步骤展开。首先在预训练阶段,大家一定会面临数据配比的问题:比如要放多少代码,多少自然语言进去,其中中文和英文分别占多少等等。这件事现在并没有任何行业共识,没有人知道最优比例是什么。但我猜,对于 Anthropic 来说,代码的优先级是最高的。它们在预训练时可能就投入了大量高质量的代码数据,所以模型在基座层面的编程能力非常强。

接下来是对齐环节,在大公司里,我们私下会调侃它像是一个 YOLO RUN(快速整合、节奏紧凑的大模型训练迭代方式)。比如今天我们三位分别在 Google 不同的团队,每个人在各自的方向上推进各类创新,然后我们定一个节奏,比如两周,把所有成果整合起来跑一个版本,看看最终迭代出了什么。这就意味着,模型在对齐的时候,不同团队的优先级是不同的。有的团队注重写作能力,有的注重数学能力。

我猜 Anthropic 的内部认为编程是第一优先级,也可能他们认为编程是解决推理模型的钥匙。所以无论是在预训练阶段,还是在后续的监督微调、强化学习环节,它们都倾向于引入更多的编程训练进去。这样会让它在 Coding 能力上表现好,但是这样做也会导致它在别的能力上稍有欠缺。

我举个我自己最近经历的有趣的例子。作为初创公司的创始人,我现在每天不只是写代码,也要做市场、销售、写文案的工作。我经常会用同一段提示词,分别输入给 Gemini、ChatGPT、Claude、Perplexity,比如让它们都输出一段市场营销的文案。结果我对比发现,OpenAI 写出来的内容最有调性,让我很愿意直接用。Claude 写的文案就会显得特别枯燥,像是在和一个无聊的码农聊天,这是策略问题。

大语言模型的训练本来就是人们常说的:垃圾进,垃圾出。如果你喂进去大量高质量代码,自然产出的代码质量也会高,这还是数据配比的问题,我认为 Anthropic 在代码问题上思考的更多。

泓君:主要也是看团队把哪一块放成是重点,你觉得 DeepMind 之前的重点在哪里呢?

Kimi:我觉得其实 DeepMind 一直追求的是一种综合能力,包括在编程、数学、推理、写作等多个维度上都具备较强的表现。所以我们会设定一套通用的评估指标体系,用于覆盖多个不同的评估维度。

不过我也知道,我们过去确实有些能力是相对薄弱的,比如写代码。也正因为如此,整个团队在编程上投入了更多的精力和资源。这一轮我认为在代码能力上算是追上了 Anthropic。

泓君:推理能力呢?也是取决于重视程度,还是需要在后训练阶段加入一些特别的技巧?

Kimi:我在 Google 的时候,Google 还没有开始它的推理模型,但我离开 Google 的时候,是 OpenAI 的 o1 刚开始出来的时候,当时 Google 推理模型还没有排在优先级很高的位置上,Google 当时还是在追赶 OpenAI 的写作能力和问题解决能力。

OpenAI 刚出的时候,大家都很喜欢它输出的内容,所以 Google 最早做的是要追上 OpenAI 在人类偏好这方面的输出质量。但人类偏好的数据是非常有限的。所以后来大家开始思考:还有什么能力是更可量化、也更容易做出突破的? 答案就是编程。

Anthropic 在这方面做出了突破之后,Google 接着也意识到,不能只输出人类偏好的内容,我还要写出非常牛的代码。而当大家都写出非常牛的代码之后,OpenAI 又把重点转向了推理。它认为不能只是想写出人喜欢的内容,不能只是写出好的代码,还要做出逻辑严密的模型,能让用户真正看懂问题是怎么被解决的。

当这件事做成之后,目前我觉得 Google 已经开始凭借推理能力,在引领这股潮流了,让别人成为了追赶者。

泓君:在数学能力方面,我注意到 Grok 的表现挺不错的,XAI 的模型。它们的创始团队里有很多非常顶尖的数学家,而且一直在尝试解决一些全球最难的数学问题。

Kimi:我的数学能力没有办法达到这个顶尖数学家的水平,这是一个 " 先有鸡还是先有蛋 " 的问题,你需要人有这个能力,才能评价模型好不好。我作为软件工程师,只有能力评价代码能力。但这个能力也分两个方面:模型是擅长写出商业可用的代码,还是只是擅长写代码这件事本身。

我记得 Anthropic 联合创始人 Dario 曾经说过一句很有意思的话:" 我不希望我的编程模型只是能解决 LeetCode 题目。" 因为 LeetCode 的题目本身不具备直接的商业价值。他希望编程模型生成的高质量代码,能直接进入像 Shaun 或者我们这样的初创公司的生产流程。这也是 Anthropic 非常专注的方向。

再说回数学问题本身。我觉得也分成两方面:一方面,有一部分人确实需要解决高难度的奥数题,这是模型能秀肌肉的地方。但另一方面,如何把这些数学问题接入不同的创业公司,从而创造商业价值。这可能是很多商业公司需要思考的问题。

02 三位灵魂人物撑起 Gemini

泓君:你觉得谁是 DeepMind 的灵魂人物?谷歌模型的价值观会更偏向谁?

Kimi:" 谷歌是谁 " 这个问题挺有意思的。我的理解是,在 Gemini 之前,Google 的模型基本是由 Jeff Dean 和 Oriol Vinyals 共同主导的,他们也是 Google 的灵魂人物。

Jeff Dean 可以说是计算机科学界的 " 活化石 "。我们经常开玩笑说,他如果要写简历,可能直接写 " 没做过什么 " 比写 " 做过什么 " 还要短很多。因为 Jeff Dean 实在做了太多事,所以只需要写他 " 没做过什么 ",这样可以在一页上写完他所有的人生成就。

Jeff Dean 非常擅长对集群大量地调度,就是预训练。Oriol 则是 AlphaGo、AlphaStar、AlphaZero、MuZero 这些项目的灵魂人物,他作为 DeepMind 的代表,在强化学习方面的研究更深入。

所以基于 Google 擅长的预训练,加上 DeepMind 擅长的强化学习与对齐,使得 Google 能快速地追赶上竞争对手的步伐。

后来,随着 Google 收购 Character.AI,也重新赢回了 Noam Shazee。他可能是我最敬重的一位人物,因为他是长期深耕在自然语言处理领域的,从他写的《Attention Is All You Need》,到后来的提出的 Grouped Query Attention。

这三位巨头形成三足鼎立的格局,把预训练、强化学习、语言能力整合成一个有机的、迭代的整体流程,使模型能力不断得到提升,让 Google 也变得更好。我对这三位也都非常崇拜,我觉得 Google 这一波能快速赶上竞争对手,也是依靠这三位的能力,包括 Jeff Dean 代表预训练与基础设施的能力,Oriol 代表对齐与强化学习的能力,Noam 代表自然语言处理的能力。

Kimi:我觉得在 Google Brain 和 DeepMind 还没有合并之前,两边的思路是完全不同的。DeepMind 强化学习的能力非常强,这也是 Google 收购它的原因。而 Google 瞬间调度大量资源来规模化训练的能力是非常强的,包括预训练与监督微调能力也很厉害。

最终我觉得这是一次强强联手的过程,Google 和 DeepMind 把彼此最擅长的领域整合了起来。

我觉得 Demis 在团队里扮演的角色更多是管理者和领导者。比如,我以前做 IC(Individual Contributor,个人贡献者)的时候,每天的工作只需要把代码写好就可以了。但当我真的去运营一家公司的时候就会意识到:真正难的不是完成任务,而是要怎样激励一群极其聪明的人,朝着同一个方向努力。

这其实是非常有挑战性的。因为越聪明的人,往往越有自己非常强的想法,他们是不愿意听从他人的指令的。而我觉得 Demis 在这方面做得非常好,他能把两个刚刚整合的公司团结成一个整体。并且能让所有人都发挥出最擅长的能力,一起朝着实现 AGI(通用人工智能)的目标共同努力。

泓君:Jeff Dean 和 Demis 之间的关系是怎么样的?

Kimi:Jeff Dean 现在是首席科学家,Demis 是 Google DeepMind 的 CEO。我不确定现在如何,我记得我走的时候 Demis 和 Jeff Dean 都直接向 Sundar Pichai 汇报。

泓君:我看 Sergey Brin 在 2023 年的时候也回来了,不过最近才开始高调亮相。你觉得作为 Google 的创始人之一,他的回归会带来什么变化吗?

Kimi:我觉得 Sergey Brin 带给 Google 的,更多是一种 "Founder Mode",也就是创始人的工作状态。他让大家明白要以什么样的投入和方式,去完成这项工作。

如果创始人都亲自回来做这件事了,而且一周在办公室待 60 个小时,那你作为 Google 的一名员工,难道好意思只干 40 小时就回家吗?而且据我所知有些团队是真的一周工作 60 个小时的。比如我有朋友在图像生成团队,他们提到过,Sergey Brin 有一次突然说:"Meta 又发新模型了,我们的模型什么时候能出来?" 大家一听,心想:" 得了吧,周末加班吧。" 所以我觉得他的回归更多的是带来 "Founder Mode",能非常鼓舞大家的士气。

泓君:Shaun 你怎么看 Gemini 2.5 Pro?

Shaun:我觉得 Kimi 把该讲的、不该讲的,都已经讲得非常好了,我就从一个相对 " 外部 " 的视角补充一些,毕竟我也在 Google 工作过。

大家都知道 Google 的人才密度非常高,但大部分人其实都处在一个比较 " 躺平 " 的状态。因为广告太赚钱了,很多团队并不需要太拼命。但这波 AI 浪潮真的起来之后,特别是去年 OpenAI 抢了 Google 不少风头,再加上 Sergey Brin 回归带来的 "Founder Mode",整个 Gemini 团队的士气都非常高涨。大家其实都为了拼一口气:如果 AGI 真的有人能做出来,那是不是就应该是 Google。

因为 Google 有全球最强的计算机,有最优秀的人才,还有接近无限的资源,现在连创始人都亲自冲回来了。站在外部来看,这一波 Gemini 的崛起其实就花了一年时间。从去年的 I/O 被 OpenAI 抢了风头,到今年的 Gemini 2.5 直接霸榜,所有都是第一名,连 OpenAI 可能今年也没办法再抢风头了。

03 Google API 价格优势揭秘

泓君:大家现在都能看到 Gemini 的模型做得很好,但很久之前,我记得在 OpenAI 和 Anthropic 的 API 价格还很高的时候,Gemini 就把 token 价格就降到了大概只有 OpenAI 的五分之一、甚至十分之一。不过后续是否它也反向促使 OpenAI 和 Anthropic 跟着降价,我没有特别去跟进现在最新的数据。

但整体来看,在开发者社区里面,大家都知道 Gemini 的 API 接入成本和 token 使用成本是非常低的。我也很好奇,Google 是如何把这个价格降下来的?

Shaun:我认为主要有三方面的原因。

第一,Google 大概从十年前就开始大量投入 TPU 了。当时它们就很清楚,如果整个 Google Cloud 发展起来后,就没办法不停地向 NVIDIA 或 AMD 采购 GPU。所以 Google 从十年前就开始慢慢地深耕 TPU 生态,而且 TPU 的迭代速度在近几年也明显变快了。因为现在需求量非常大,如果拥有自己的 TPU,就可以避开所谓的 "NVIDIA 税 ",也不用等 NVIDIA 新的 GPU 出来之后和市场抢货。

第二是大家都知道 Google Infra(基础设施)的能力非常强,所以相当于拥有几乎无限的资源。而且 Google 动态调度资源的能力也是远强于 OpenAI 和 Anthropic 的,因为这两家目前还没有自己的数据中心。Grok 现在很强,做出了全球最大 GPU 集群。但行业内大多数 AI 公司还是没有调动如此大的集群的能力的,还是需要依赖 Amazon、Microsoft 这些第三方云服务来做这些事情。

第三,因为 Google 能够自行定制硬件,又能调用巨大的集群资源,在优化模型时就相当于软硬件一体化了,因此在硬件上发挥出的能力也会更强。并且 Google 还有自己整个开发者生态。

Kimi:我非常同意 Shaun 说的,Google 内部的 Infra 能力确实非常强。很早之前,SemiAnalysis 出过一篇很有意思的报告,对不同的 GPU 云服务进行了打分和排名。当时它们把 CoreWeave 排在了第一,我知道 OpenAI 用的就是 CoreWeave 来做整个 GPU 调度的。当时我还跟我的联合创始人开玩笑说,其实在 CoreWeave 之上还有一个,最牛的应该是 Google 自己内部的系统,它的 Infra 能力真的非常强。

关于 API 的价格,虽然我们现在都觉得 API 价格已经很便宜了,但其实我们都并不知道它的成本价是多少。唯一一个我们能看到的线索,是之前 DeepSeek 发布的一篇论文,里面提到:DeepSeek 有 80% 的溢价空间,说明它的成本价格只有收取费用的 20% 左右。

对比 DeepSeek 用的 GPU 的体量,我们可以反推 OpenAI 的利润一定是非常高的。当然,我不是说 Google 的 API 一定是成本价,但它确实有足够的资本和能力去这么做。