这个开源AI套件, 黄仁勋、苏姿丰都点赞
分析机构 SemiAnalysis 近日发布了一款名为 InferenceMax 的开源AI基准测试套件,专注于衡量在真实AI推理(模型实际运行)场景下,由驱动、内核、框架等组成的整个软件堆栈的综合效率。
人工智能领域的焦点几乎完全集中在芯片交易和 GPU 等硬件发展上,现有的基准测试也大多只关注硬件性能,因此 InferenceMax 希望提供一个开源且厂商中立的AI基准测试套件。该项目以滚动发布的方式,每晚更新测试结果,从而能够动态追踪软件更新对性能的持续影响。
InferenceMax 引入了两个相互制约的关键性能指标。其一是“吞吐量”,指在单位时间内处理更多并发请求的能力,这有利于最大化 GPU 利用率;其二是“交互性”,指为单个用户提供更快响应速度的能力,例如在聊天机器人场景中。
LLM推理依赖于可以通过将多个请求批处理在一起而受益的矩阵乘法,换言之,同时为更多用户提供服务。大批量能更好地利用GPU并提高标记吞吐量,但它们把可用资源分配到更多请求上,从而减慢了每个用户的标记生成速度。相反,小批量将GPU资源集中在较少的请求上,也就是说,较少的用户,以高交互性的代价提供服务。在实践中,大多数供应商都旨在在这些极端之间取得平衡。这个权衡的最佳点取决于用例:某些应用程序优先考虑响应能力,而另一些则优先考虑吞吐量。然而,目标交互性水平直接影响推理成本。更高的交互性意味着更高的成本。
拥有或租赁用于推理的GPU系统通常会产生固定的$/小时成本。因此,随着交互性增加和整体吞吐量减少,每小时生成的标记数减少,从而推高每个标记的单价(以每百万标记的成本来衡量)。为了保持盈利,供应商必须将每个标记的定价设定在其服务成本之上。这意味着更高交互性的用例需要更高的每标记价格以支持这种更高的成本,而高吞吐量的应用程序则可以以较低的价格提供服务。
因此,要在两者之间取得理想平衡(即帕累托前沿曲线上的最佳点)至关重要。最终,对于服务提供商而言,衡量投资回报的终极标准是“总拥有成本”(TCO),即处理每百万 token 所需花费的美元。InferenceMax 致力于估算不同硬件采购或租赁方案下的 TCO,为用户提供最具经济效益的选择依据。
InferenceMax 的初步测试提供了一些颠覆性的见解。例如,尽管英伟达的B200在原始速度上遥遥领先,但在综合考量 TCO 后,AMD 的 MI335X 在特定场景下展现出了极强的竞争力,这表明,最快的芯片不一定是最经济高效的选择。同时,测试也暴露了 AMD 在 FP4(4 位浮点格式)内核方面尚有改进空间,目前依赖该数学格式的场景仍由英伟达芯片主导。这些发现凸显了单纯比较硬件参数的局限性,软件优化与成本效益正成为评估AI性能的关键。
值得一提的是,InferenceMax 的开发过程得到了英伟达、AMD 及多家云服务商的深度协作。这种合作不仅帮助项目获取了真实的硬件与软件配置方案,还意外地发现了两大巨头软件堆栈中的多个错误。同时,InferenceMax还分别针对英伟达和AMD给出了建议。
尽管大量用户和 GPU 正在运行 SGLang 和 vLLM,但英伟达已将大部分推理工程师分配给 TensorRT-LLM,并且相对较少的工程资源用于支持 SGLang 和 vLLM。InferenceMax建议Jensen 将更多推理工程资源分配给支持和贡献于流行的推理引擎,如 vLLM 和 SGLang。这将使英伟达更好地履行其加速工作负载的使命,无论用户选择哪个推理引擎。
在AMD方面,InferenceMax建议减少需要手动启用的ROCm特定标志,以实现合理的性能。AMD已认识到这一点,并已开始确保优化配置默认设置的工作。事实上,许多减少所需标志数量的更改已经合并到主分支中。
英伟达首席执行官黄仁勋表示:“在长上下文推理的推动下,推理需求呈指数级增长。NVIDIA Grace Blackwell NVL72 正是为这个充满思考力的AI新时代而生。NVIDIA 通过持续的硬件和软件创新来满足这一需求,从而赋能AI的未来发展。通过频繁的基准测试,InferenceMax 让业界能够清晰地了解 LLM 推理在实际工作负载下的性能。结果显而易见:搭载 TRT-LLM 和 Dynamo 的 Grace Blackwell NVL72 可提供无与伦比的单位成本和单位兆瓦性能,为全球生产力最高、成本效益最高的AI工厂提供支持。”
AMD 首席执行官苏姿丰表示:“开放式协作正在推动人工智能创新的新时代。开源 InferenceMax 基准测试为社区提供透明的每日结果,从而激发信任并加速进步。它凸显了我们的 AMD Instinct MI300、MI325X 和 MI355X GPU 在不同工作负载下具有竞争力的 TCO 性能,彰显了我们平台的强大实力以及我们致力于让开发人员实时了解软件进度的承诺。”
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!
