Rubric RL 相关文章

阅读背景: 2026 年 2 月系统梳理了市面上关于 Rubric-based RL 的工作,从 Rubric 生成、应用到周边方法进行分类整理。


📐 Rubric 生成

Scale AI
用 LLM 基于已有 Rubric 生成新 Rubric,突破可验证域的限制
UW / AI2
动态更新 Rubric,维护随训练演化的 Rubric 库,更好适配 query 分布变化
arXiv
引入 Meta Judge 机制,模型自我提升对齐能力,判断者与被判断者互相强化
Meta
Anchor 结合多条 rollouts 合成参考回答,再基于参考回答生成对应 Rubric,无需人工标注参考答案

🎯 Rubric 应用

Ant
首个提出 Rubric RL 框架的工作,将结构化评分标准引入强化学习奖励设计

一致推理步骤筛选

只有在多条正确轨迹中一致出现的步骤,才被视为合理的推理步骤。

arXiv
通过跨轨迹一致性过滤噪声推理步骤,生成更可信的多模态推理奖励信号

生成时引入 Rubric

在生成回答的过程中就注入部分 Rubric 作为脚手架(Scaffold),引导探索方向。

arXiv
在生成阶段嵌入 Rubric 结构约束,缓解 RL 训练中的探索瓶颈问题

📚 Paper Reading 摘要

arXiv
将 GRPO 的组内打分替换为两两 LLM-as-a-Judge 比较;采用种子轮、瑞士轮等排序方法探索低复杂度拓扑排序,数据集自建
arXiv
训练 Rubric Generator + Rubric Verifier 双模型:Generator 基于小规模专家数据训练后扩展到大规模,自动为训练数据生成对应 Rubric
arXiv
以「Prompt + 优选回答 + 被拒回答」为上下文训练 Rubric 生成模型;将 Rubric 分为 Hard Rules(必须严格满足)和 Principles(可模糊权衡),避免奖励模型混淆两类标准
arXiv
Rubric 不应该只在训练结束后拿来评分,它还应该在生成过程中作为“外部认知脚手架”,帮助模型走出自己原本想不到的推理路径。
arXiv
两阶段框架:① Query-Specific Rubric Inference(Propose–Evaluate–Revise 循环);② Query-Agnostic Rubric Aggregation(信息论驱动的最大化编码率选出紧凑通用准则集),输出 Theme–Tips 层次结构
展开方法细节
阶段一:Query-Specific Rubric Inference
  1. Propose:用生成模型为偏好样本(query + 正回答 + 负回答)生成初步评价准则草案
  2. Evaluate:评估模型检验准则是否能正确区分正/负回答
  3. Revise:若评估失败,修订模型修正准则并重新验证,循环直至收敛
阶段二:Query-Agnostic Rubric Aggregation
  • 用信息论驱动的最大化编码率(Coding Rate)算法,从所有 query-specific 准则中选出紧凑集合
  • 目标:高覆盖度 × 低冗余性 × 高信息量
  • 输出 Theme–Tips 层次结构(高层主题 + 具体提示)
arXiv
稠密 Rubric 奖励(Factual + Process)+ GRPO 策略更新;离线收集高评分未完美轨迹生成指导信号,用于离线策略 refinement
展开训练流程
  1. 使用当前策略生成多个回答 / 推理轨迹
  2. 用 Rubric 评估轨迹(Factual + Process 两维度)
  3. 计算稠密奖励,基于 GRPO 更新策略参数
  4. 离线收集高评分但未完美的轨迹
  5. 分析这些轨迹,生成指导信号
  6. 将指导信号用于离线策略 refinement
arXiv
两步 Rubric 构造:① Proposer LLM(如 GPT-4.1)分析离策略响应差异,生成细粒度判别标准;② 迭代细化——从最优响应出发逐步添加更精细标准,直到获得高判别力 Rubric 集
arXiv
在推理阶段扩展计算量以提升通用奖励模型的评估质量,探索 Test-Time Scaling 在 RM 场景的有效性
arXiv
将 Rubric RL 扩展到图像生成领域,由 GPT-o4-mini 自动为输入 Prompt 生成细粒度评估标准
arXiv
面向检索增强 LLM 的高效 Rubric 生成式验证器,兼顾验证精度与推理效率

🗂 更多相关工作

Didi
Agent 与沙箱环境交互的端到端旅行规划 RL 框架 ICLR 2448
Ant
基于 Rubric 的自奖励强化学习,无需外部评分器即可处理开放式推理任务 ICLR 2446
CMU
提升 GRPO 训练中概率低但正确回答的奖励权重,缓解少数正确样本被忽视的问题

💡 个人思考

Rubric 生成 vs. Rubric 应用

生成方面分为 **Hardcode** 和 **Dynamic Update** 两种策略: - **Hardcode** — 简单易编写,但粒度不够细,难以覆盖所有评估维度 - **Dynamic Update** — 能根据不同 query 动态调整,适配性更强,但 Rule Library 的维护成本较高 UW & AI2 的工作专门研究了 Rubric 更新方法,见[分析笔记](https://chatgpt.com/share/6969d9df-a544-8006-bd23-54725663397f)。 --- **几个悬而未决的问题:** - 是否应该结合笔记(Note)来辅助 Rubric 生成? - 供给侧数据所包含的多样性,与模型真正感知到的多样性之间存在差距,如何弥合? - **蒙特卡洛树搜索**可能是生成多样性的有效手段——通过寻找同级节点或父子节点来构造多样化的推理轨迹