蚂蚁百灵开卷模型性价比! 长文本推理只要1/10成本
作者|江宇
智东西9月26日报道,蚂蚁百灵团队近日正式开源两款全新混合线性推理模型——Ring-mini-linear-2.0与Ring-flash-linear-2.0。相比前代,这一轮升级在延续高稀疏MoE结构的基础上,引入了混合线性注意力(LinearAttention)机制,专为长文本、低成本推理等场景提效而设计。
眼下,大模型开始真正走进应用场景,推理成本却成了横在企业面前的一道坎。一边是用户希望更快、更久地交互,另一边却是又贵又慢的模型部署现实。在不牺牲效果的前提下降本提效,已经成了各家模型团队绕不开的问题。
据蚂蚁团队的实测数据,在保持SOTA精度的前提下,本轮开源的Ring-linear系列模型最大上下文长度512k,将推理成本压缩至dense模型的1/10,相比原有Ring模型推理成本降低50%以上,并且在高并发解码任务中吞吐量可达Qwen3-8B的12倍、Qwen3-32B的10倍以上。
此外,蚂蚁团队还引入了精细化的推理优化融合算子、RL训练对齐机制等系统级工具,直指当前推理成本与训练稳定性的关键瓶颈。
除了推理效率的显著提升,Ring-linear系列模型在多项标准评测中的表现也不容忽视,尤其在数学推理、结构代码生成、通用语言理解与写作任务中,展现出与主流大模型相比具有竞争力的准确率。实测结果包括:
Ring-mini-linear-2.0:
Ring-flash-linear-2.0:
目前,这套模型现已同步上线多平台,开源地址如下:
一、混合线性架构重构Attention计算图,推理成本再砍一半
此次开源的Ring-linear系列模型,构建于蚂蚁自研的Ring-mini-2.0与Ring-flash-2.0MoE基座之上,最大特点是将主干Attention模块替换为自研线性Attention融合模块,辅以少量标准Attention,形成高效混合注意力结构。
以Ring-flash-linear为例,其结构中87.5%的层采用线性Attention(28层线性+4层标准),结合旋转位置编码(RoPE)与分组RMSNorm等训练优化策略。这种高占比的线性架构,使得整体计算复杂度近似线性,在长上下文条件下,显著降低训练和推理的计算成本。
同时,该模型保持了1/32专家激活率的超稀疏MoE结构,通过MTP(MixtureTokenParallel)与全局负载均衡设计,实现“以6.1B参数模拟40Bdense模型”的效果。在保持性能的前提下,大幅降低激活参数与计算需求。
Ring-linear-2.0系列模型架构示意图,主干结构采用线性Attention与稀疏MoE混合设计,最大支持512K上下文长度,并引入MTP多token预测训练目标。
在真实业务场景中,长文本处理、多轮交互频繁,大模型推理速度慢、成本高成为了其上线部署应用的最大阻碍。正因如此,如何在不牺牲效果的前提下降本提效,成了蚂蚁团队重点探索的方向,而线性Attention与稀疏MoE结合,正是他们给出的答案之一。
二、推理吞吐大幅领先,Prefill、Decode双线提速
当大模型真正部署起来之后,推理吞吐才是决定体验和成本的“临门一脚”。尤其在大模型进入多轮交互、长上下文等复杂场景后,单纯追求更大的参数规模,未必能换来更好的效果,反而可能因吞吐不足拖慢响应、推高成本。因此,Ring-linear系列在推理性能上的表现,成为其能否落地的重要指标。
在推理性能方面,蚂蚁团队提供了详尽实测结果,Ring-linear系列模型在长上下文与高并发生成场景中具备明显优势:
Ring-mini-linear-2.0Prefill吞吐(batchsize=1)
Ring-mini-linear-2.0Decode吞吐(batchsize=64)
Ring-mini-linear-2.0在Prefill阶段(上下文256k+)吞吐量为Qwen3-8B的12倍以上;在Decode阶段,生成长度32k+时吞吐量同样为Qwen3-8B的12倍以上。
Ring-flash-linear-2.0Prefill吞吐(batchsize=1)
Ring-flash-linear-2.0Decode吞吐(batchsize=64)
Ring-flash-linear-2.0则在对比Qwen3-32B时展现出突出优势——上下文32k以上,Prefill阶段吞吐量近5倍;生成长度64k时,Decode阶段逼近10倍吞吐优势。这些优化均得益于蚂蚁团队对推理框架(SGLang/vLLMv1)的深度适配与线性算子的定制化加速。
测试显示,优化后的tritonkernel最高加速比可达2.73倍(prefill单样本任务),在典型decode场景中也能够达到2.57倍,并支持批量prefill与混合推理模式,有效应对真实部署场景中的多并发挑战。
Ring-linear系列在线性Attention算子推理任务中的加速表现
这些优化奠定了Ring-linear系列模型在推理层面的基础。而要将模型真正推进RL训练、提升长期表现,还得解决另一个关键问题:训推一致性。
三、训推一致性修复RL瓶颈,支持长输出下的直接采样
强化学习(RL)阶段的稳定性问题,常常来源于训练-推理(训推)实现不一致。尤其在MoE模型中,组件如RMSNorm、RoPE、Attention、KVCache、softmax等在不同框架间存在精度/顺序/后处理差异,会严重干扰on-policy策略更新,导致reward波动大、训练上限低。
为此,蚂蚁团队从框架底层修正训推逻辑差异,提出三项改进:
1、算子级一致性:训练与推理采用相同模块实现;
2、精度统一:重要模块如KVCache与lm_head统一采用fp32;
3、确定性保障:MOE专家选择、token加和顺序引入稳定排序与固定顺序。
实测显示,修复关键模块后RLreward显著提升,并首次实现RL阶段直接使用rolloutprobs而非trainingprobs,不仅节省重前向计算时间,还提升了训练效率与最终回报。
对比使用rolloutprobs与rainingprobs进行PPOclip训练的效果。左图为训练奖励(Reward)变化趋势,右图为训推概率差异绝对值大于0.8的token占比,对齐后训推差异显著降低。
这一系列修复,为MoE模型走向强化学习阶段扫清了落地障碍,也让长输出任务具备了稳定训练和高质量采样的基础能力。简单来说,就是模型在训练时学会的“策略”,能够在推理时原样执行出来。一旦训推一致,模型就真的学会了“决策”。
四、实测:结构代码生成清晰完整,动画逻辑具备通用性
蚂蚁团队也围绕Ring-linear系列模型进行了多组结构化代码生成的实测,任务涵盖图形动画控制、规则逻辑实现与游戏基础玩法复现。Ring-linear系列模型均可根据自然语言指令输出结构清晰、可直接运行的Python代码,展示出良好的代码理解与生成能力。
实测任务包括:
1、数独游戏web代码生成
指令:“编写一个数独游戏的web应用”
模型生成代码能够快速实现一个bugfree的数独游戏应用,包括正确数字初始化、难易程度选择、数字填写是否正确提示等核心功能。
2、坦克大战
指令:“UsePythontocreateasimplifiedtankbattlegame.Usersusetheup,down,left,andrightkeysonthekeyboardtocontrolthefreemovementofatank.Thespacebarfiresbulletstodefeatenemytanksinthegamescene.Thescenecontainsfivefreelymovingenemytanks,whichfirebull
etsinthedirectionofthecurrenttank’smovement.Eachtimeanenemytankisdefeated,onepointisawarded,andanewenemytankisrandomlygenerated.Thegameendswhentheuser’stankishitbyanenemytank.”
输出Python代码覆盖坦克位置的初始化、方向自动控制、积分更新等完整逻辑模块,能够自主指挥坦克运动和射击。
3、股票系统应用
指令:“请生成一个模拟股票交易软件的页面,数据可以是随机生成的,页面包含了五部分部分:
1.日内的秒级数据,这部分需要一秒更新一次,按照线的方式进行展示。
2.日k线,这部分可以展示最近60天的ohlc的数据,使用蜡烛图进行展示,涨了的是红色,跌了的是绿色。
3.实时的成交量,也是一秒更新一次,现实数字即可。
4.日线的成交量数据,用柱状图表示。
5.公司的介绍,可以随机生成一些。
需要注意的点:
1.请使用canvas绘制各种曲线和蜡烛图,但是需要注意绘制图像的清晰度,需要为高清设备进行准备;
2.需要可以根据窗口的大小自行调整canvas窗口的大小;
3.使用原生的js和html5属性不要使用额外的库;
4.请保证随机生成的价格数据都是可以使用的。”
模型可生成完整的模拟股票交易软件,涵盖交易价格、数量展示、趋势分析等核心功能。同时生成页面展示精美,有较强的指令遵循能力。
整体来看,Ring-linear系列模型在结构化代码生成任务中的表现稳定,具备良好的语义解析与逻辑组织能力,能够覆盖多类Python、Web编程指令,适用于可视化交互、小型逻辑游戏等场景的快速原型生成。
结语:混合线性架构成大模型新风口,百灵团队再打开一扇门
随着推理大模型越来越卷“长推理”“低成本”,TestTimeScaling正在变成新一轮技术追求的焦点。
蚂蚁百灵团队这轮开源的Ring-linear系列模型,结构上“做减法”,用混合线性机制精简计算路径;推理上“做乘法”,依靠稀疏MoE和系统级加速,把效率拉满。不只是跑得快、用得省,更在RL训练这块最难啃的骨头上,给出了全新解法。
