腾讯混元开源AI绘画新框架: 24维度对齐人类意图

AI绘画总“画不对”,让创作者一再崩溃。

如今,腾讯混元团队开源的PromptEnhancer框架,为这一难题提供了解决方案。

无需修改任何预训练T2I模型的权重,仅通过 “思维链(CoT)提示重写” 这一简单思路,就能让AI绘画的文本-图像对齐精度大幅提升。

在抽象关系理解、数值约束等复杂场景中,准确率甚至能提升17%以上。

同时,为了助力研究人员进一步深入探索提示优化技术,腾讯混元团队同步开源了一个全新的高质量人类偏好基准测试数据集。

该数据集围绕复杂场景构建,包含大量标注数据,不仅为PromptEnhancer的训练与评估提供了有力支撑,更为相关研究领域提供了重要参考。

核心创新:两大模块破解 “理解难题”,实现 “即插即用” 优化

近年来,从Stable Diffusion、Imagen到HunyuanDiT、Flux,T2I扩散模型已能生成超写实、风格多样的图像,但它们对 “人类指令” 的解读能力,仍存在明显短板。

腾讯混元团队在研究中发现,T2I模型的核心问题集中在三大领域:

属性绑定混乱:无法将 “红色”“条纹” 等属性精准匹配到 “帽子”“衣服” 等对象上;

否定指令失效:输入 “没有葱的牛肉面”,生成的图像里却总会出现葱;

复杂关系失控:难以理解 “猫在狗左边,且比狗小一半” 这类空间与比较关系,更无法渲染 “用橘子瓣拼成的猫” 这种抽象组合场景。

这些问题的根源,在于用户输入的简洁指令与模型需要的 “精细化描述” 之间存在巨大鸿沟。

此前的解决方案要么需要针对特定T2I模型微调,难以通用;要么依赖CLIP分数等粗糙评价指标,无法定位具体错误。

这就导致AI绘画更像 “开盲盒”,而非可控的创作工具。

PromptEnhancer的突破,在于构建了一套与生成模型完全解耦的提示优化框架,核心包含 “CoT-based重写器” 与 “AlignEvaluator奖励模型” 两大模块,通过两阶段训练让AI 学会“精准说话”。

图1:PromptEnhancer技术架构

由上图可以看出,PromptEnhancer由两部分组成,分别是SFT监督训练用于激活CoT改写能力,基于AlignEvaluator的GRPO强化学习对齐24个维度。

CoT-based 重写器:像人类设计师一样拆解指令

不同于传统 “关键词堆砌” 式的提示优化,PromptEnhancer的重写器引入了 “思维链(CoT)” 机制——模拟人类设计师的思考过程,将简洁指令拆解为 “核心元素-潜在歧义-细节补充” 三步骤。

图2:穿宇航服的汤姆猫在太空漂浮

例如,用户输入 “可爱的汤姆穿宇航服在太空漂浮,油画风格”。

重写器会先明确 “汤姆是《猫和老鼠》IP角色” 这一背景知识,再补充 “宇航服是米白色多层设计,头盔带黄色高光”“太空背景用厚涂技法,星体是白色黄色点彩” 等细节,最终生成结构化的精细化提示。

为让重写器掌握这种能力,团队首先通过 “监督微调(SFT)” 进行初始化。

利用Gemini-2.5-Pro等大模型生成48.5万组 “原始提示(user prompt)-思维链(think)-精细化提示(reprompt)” 数据,让重写器学会从 “宏观概述” 到 “微观细节” 的描述逻辑。

AlignEvaluator:24维度 “打分”,精准定位错误

传统奖励模型(如CLIP分数)只能给出 “整体相似度”,无法判断AI错在哪。

PromptEnhancer则构建了覆盖6大类别、24个关键维度的评价体系,让错误定位更精准。

这24个关键维度几乎涵盖了T2I模型的所有 “盲区”,例如:

语言理解:否定指令、代词指代(如 “它是金属做的,所以砸坏了桌子” 中的 “它” 是否指 “球”);

视觉属性:物体数量(3只以上)、材质(冰雕 vs 石雕)、表情(轻蔑 vs 微笑);

复杂关系:包含关系(杯子里装着苏打水)、相似关系(湖的形状像吉他)、反事实场景(女孩抓着蒲公英梗悬在云端)。

AlignEvaluator通过大规模标注数据训练,能针对每一个维度给出生成图像的 “精准分数”。

例如 “牛肉面没画葱” 在 “否定指令” 维度得高分,“猫的颜色错了” 在 “属性绑定” 维度得低分,从而为提示优化提供明确方向。

图3:AlignEvaluator评估维度

两阶段训练:从 “会写” 到 “写得好”

有了基础能力与评价标准,PromptEnhancer通过两阶段训练让重写器持续进化:

阶段 1:SFT初始化:掌握结构化描述能力,能生成符合语法逻辑的精细化提示;

阶段 2:GRPO强化学习:将重写器生成的8个候选提示输入冻结的T2I模型(如Hunyuan-Image 2.1),用AlignEvaluator对生成图像打分。

通过 “奖励越高的提示越受重视” 的逻辑,让重写器逐渐学会 “生成能让T2I模型读懂的提示”。

20个维度准确率提升,复杂场景突破明显

图4:在24个维度benchmark的文生图语义准确率

在HunyuanImage 2.1模型上的测试显示,PromptEnhancer带来了全方位的性能提升:

整体准确率+5.1%:在24个评价维度中,20个维度实现正提升,仅2个维度出现轻微下降(文本布局-0.7%、无接触交互-0.9%);

复杂场景突破显著:在最具挑战性的 “相似关系”(如 “湖像吉他”)、“反事实推理”(如 “蒲公英梗悬云端”)、“数量计数”(如 “4只狗”)维度,准确率分别提升17.3%、17.2%、15.0%;

风格与细节更精准:在 “面部表情”(如 “轻蔑的表情”)、“跨对象属性绑定”(如 “男人短发蓝衬衫,女人长发黄衬衫”)维度,准确率提升超10%,油画、点彩等风格的还原度也大幅提高。

从定性效果看,原始提示生成的 “汤姆穿宇航服” 图像中,宇航服细节模糊、太空背景单调。

而经过PromptEnhancer优化后,不仅角色IP特征清晰,宇航服的纹理、背景的绘画技法都完全符合用户预期。

PromptEnhancer的 “即插即用” 特性,在HunyuanImage 2.1、Flux dev、Qwen-Img等主流 T2I 模型上的图文对齐,真实感,美感均有一定提升,验证了对不同架构生成模型的适配性。

以下为典型场景的提示词经过PromptEnhancer改写前后的效果对比:

图5:Qwen-Image生成

User Prompt:没有糖霜的草莓蛋糕,放在铺着格子餐布的木桌上,油画质感。

图6:Qwen-Image生成

Reprompt:一幅油画作品描绘了一个没有糖霜的草莓蛋糕,它被放置在一张铺有格子餐布的木质桌子上。蛋糕主体为圆形,呈现出明显的厚涂油画技法,其表面布满了粗犷的brushstrokes。蛋糕的内部是草莓色的海绵体,结构松软,层与层之间填充着粉色的果酱。蛋糕顶部装饰着几颗新鲜的红色草莓,其形态和颜色均由厚重的油画颜料表现。蛋糕下方是一块格子图案的餐布,由蓝色和白色交织的笔触构成,铺设在一张深棕色的木质桌面上,桌面的木纹grain也以明显的油画笔触刻画出来。整体画面呈现出强烈的油画质感,色彩饱和且厚重,笔触感强烈,是一幅典型的Still-life painting(静物画)作品。

图7:FLUX Dev生成

User Prompt:三只戴着不同颜色领结的兔子,最大的在最左边,最小的在最右边,中间的兔子抱着胡萝卜,低多边形风格。

图8:FLUX Dev生成

Reprompt:一幅图像描绘了三只大小不一、戴着不同颜色领结的兔子,它们以从大到小的顺序从左至右排列在一个低多边形风格的场景中。画面最左侧是体型最大的一只兔子,它身体呈浅灰色,由清晰的多边形平面构成,脖子上戴着一个红色的多边形领结。中间位置是一只中等大小的兔子,它身体为白色,前爪紧紧抱着一个橙色的胡萝卜,胡萝卜的叶子是绿色的,同样呈现出明显的多边形结构,它的领结是蓝色的。画面最右侧是体型最小的一只兔子,它身体呈淡粉色,脖子上戴着一个黄色的领结,它静静地站立着。它们站立的地面是由多边形块状拼接而成,背景是简单的几何色块。整体画面呈现出鲜明的低多边形(Low Poly)风格。

图9:HunyuanImage-2.1生成

User Prompt:手绘作业,一个方块、两个三角形和三个圆形,所有图形的轮廓都是粉色的。

图10:HunyuanImage-2.1生成

Reprompt:手绘作业。多个基本几何图形排列在一个白色的纸张背景上。中央是一个正方形,其轮廓由一条明显的粉色线条勾勒而成,线条粗细不均,带有手绘感。在正方形的上方,摆放着两个三角形,它们的轮廓同样为粉色。在这些图形的周围,散落着三个圆形,它们的边界也是粉色的线条。所有图形的内部均为白色,与粉色的轮廓形成对比。背景是白色的画纸,上面有一些轻微的褶皱或污渍,增加了手绘的真实感。儿童手绘或概念草图的风格。

这些跨模型测试表明,PromptEnhancer无需针对特定T2I模型做定制化修改,仅通过 “提示重写+AlignEvaluator 反馈” 的通用逻辑,就能提升不同架构的生成模型的复杂指令理解能力。

这意味着产业界可低成本将该技术嫁接至现有工作流,快速提升AI绘画的可控性与创作效率。

为了推动提示优化技术的可解释性与可复现性研究,腾讯混元团队同步开源了包含6000条Prompt及对应多个维度精细标注的高质量基准测试集。

这套数据集不仅覆盖 “属性绑定”“复杂关系”“否定指令” 等T2I模型核心痛点场景,更通过多维度统计分析,为研究人员揭示AI绘画指令理解的深层规律。

数据集概览:6k Prompt覆盖复杂创作场景

该基准测试集的6000条Prompt,围绕 “人类意图精准表达” 核心目标构建,涵盖三类复杂场景:

日常创作延伸:如 “穿条纹围裙的厨师在大理石台面上切红苹果,chiaroscuro明暗对比风格”;

抽象关系挑战:如 “用云朵形状组成的鲸鱼在紫色天空游动,像素艺术风格”;

反事实与推理场景:如 “如果猫长着大象的耳朵,它会如何趴在樱花树上,浮世绘风格”。

每条Prompt均配备AlignEvaluator所需的24维度标注,确保对 “人类意图” 的精准捕捉。

Prompt长度分布:指令复杂度的直观映射

图11:Prompt的字符长度分布

长度集中于80-120字符区间,峰值约在100字符处,体现数据集以 “中等复杂度指令” 为核心 —— 既覆盖日常简短指令的延伸,又能挑战模型对长指令中多元素关系的理解。

120字符以上的 “长尾区间” 仍有较高频率,代表 “极复杂指令”(多对象、多属性、多关系组合指令)的存在,为模型极限能力测试提供素材。

这种分布与真实创作场景高度契合:创作者既会用简洁指令表达核心想法,也会在专业创作中补充大量细节。

关键维度共现:指令复杂度的 “组合密码”

颜色越深(数值越高),代表两个维度在同一条Prompt中共同出现的频率越高。例如,“Style(风格)” 与 “Action-Contact Interaction Between Entities(实体接触交互)” 共现频率达676次,说明 “带风格的动态交互场景” 是创作者高频需求。

“Attribute-Expression(属性-表情)” 与 “Action-Character/Anthropomorphic Full Body Movement(角色全身动作)” 共现332次,反映 “角色动作+表情细节” 的组合需求普遍存在。

小众但关键的维度组合也被呈现,如 “Logical Reasoning(逻辑推理)” 与 “Relationship-Comparative(比较关系)” 共现,对应 “猫比狗小一半所以跳得更高” 这类需逻辑链条的指令。

未来与展望

PromptEnhancer的意义,不仅在于提升了单模型的生成精度,更从技术与生态层面为 AI 绘画领域带来三大突破:

通用性:无需修改T2I模型权重,可作为 “即插即用” 模块适配混元、Stable Diffusion、Imagen等任意预训练模型,降低优化成本;

可解释性:通过CoT思维链与24维度评价,让 “提示优化” 不再是黑箱,开发者可清晰定位模型的理解盲区;

生态补全:团队同步发布了高质量人类偏好基准,包含大量针对复杂场景的标注数据,为后续提示优化研究提供了重要参考。

随着AI绘画从 “娱乐工具” 向 “工业设计、广告创作” 等专业领域渗透,“精准理解人类意图” 将成为核心竞争力。

PromptEnhancer通过 “优化指令而非修改模型” 的思路,为这一方向提供了可落地的技术路径。

未来,创作者或许只需输入简单想法,AI就能自动补全专业细节,让 “所想即所得” 的创作成为现实。

项目主页:https://hunyuan-promptenhancer.github.ioGithub:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancerPromptEnhancer-7B: https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态