Rubric RL 相关文章
阅读背景: 2026 年 2 月系统梳理了市面上关于 Rubric-based RL 的工作,从 Rubric 生成、应用到周边方法进行分类整理。
📐 Rubric 生成
Scale AI
用 LLM 基于已有 Rubric 生成新 Rubric,突破可验证域的限制
UW / AI2
动态更新 Rubric,维护随训练演化的 Rubric 库,更好适配 query 分布变化
arXiv
引入 Meta Judge 机制,模型自我提升对齐能力,判断者与被判断者互相强化
Anchor 结合多条 rollouts 合成参考回答,再基于参考回答生成对应 Rubric,无需人工标注参考答案
🎯 Rubric 应用
Ant
Reinforcement Learning with Rubric Anchors
🏆 First Paper
首个提出 Rubric RL 框架的工作,将结构化评分标准引入强化学习奖励设计
一致推理步骤筛选
只有在多条正确轨迹中一致出现的步骤,才被视为合理的推理步骤。
arXiv
通过跨轨迹一致性过滤噪声推理步骤,生成更可信的多模态推理奖励信号
生成时引入 Rubric
在生成回答的过程中就注入部分 Rubric 作为脚手架(Scaffold),引导探索方向。
arXiv
在生成阶段嵌入 Rubric 结构约束,缓解 RL 训练中的探索瓶颈问题
📚 Paper Reading 摘要
arXiv
将 GRPO 的组内打分替换为两两 LLM-as-a-Judge 比较;采用种子轮、瑞士轮等排序方法探索低复杂度拓扑排序,数据集自建
arXiv
训练 Rubric Generator + Rubric Verifier 双模型:Generator 基于小规模专家数据训练后扩展到大规模,自动为训练数据生成对应 Rubric
arXiv
以「Prompt + 优选回答 + 被拒回答」为上下文训练 Rubric 生成模型;将 Rubric 分为 Hard Rules(必须严格满足)和 Principles(可模糊权衡),避免奖励模型混淆两类标准
arXiv
Rubric 不应该只在训练结束后拿来评分,它还应该在生成过程中作为“外部认知脚手架”,帮助模型走出自己原本想不到的推理路径。
arXiv
两阶段框架:① Query-Specific Rubric Inference(Propose–Evaluate–Revise 循环);② Query-Agnostic Rubric Aggregation(信息论驱动的最大化编码率选出紧凑通用准则集),输出 Theme–Tips 层次结构
展开方法细节
阶段一:Query-Specific Rubric Inference
- Propose:用生成模型为偏好样本(query + 正回答 + 负回答)生成初步评价准则草案
- Evaluate:评估模型检验准则是否能正确区分正/负回答
- Revise:若评估失败,修订模型修正准则并重新验证,循环直至收敛
- 用信息论驱动的最大化编码率(Coding Rate)算法,从所有 query-specific 准则中选出紧凑集合
- 目标:高覆盖度 × 低冗余性 × 高信息量
- 输出 Theme–Tips 层次结构(高层主题 + 具体提示)
arXiv
稠密 Rubric 奖励(Factual + Process)+ GRPO 策略更新;离线收集高评分未完美轨迹生成指导信号,用于离线策略 refinement
展开训练流程
- 使用当前策略生成多个回答 / 推理轨迹
- 用 Rubric 评估轨迹(Factual + Process 两维度)
- 计算稠密奖励,基于 GRPO 更新策略参数
- 离线收集高评分但未完美的轨迹
- 分析这些轨迹,生成指导信号
- 将指导信号用于离线策略 refinement
arXiv
两步 Rubric 构造:① Proposer LLM(如 GPT-4.1)分析离策略响应差异,生成细粒度判别标准;② 迭代细化——从最优响应出发逐步添加更精细标准,直到获得高判别力 Rubric 集
arXiv
在推理阶段扩展计算量以提升通用奖励模型的评估质量,探索 Test-Time Scaling 在 RM 场景的有效性
arXiv
将 Rubric RL 扩展到图像生成领域,由 GPT-o4-mini 自动为输入 Prompt 生成细粒度评估标准
arXiv
面向检索增强 LLM 的高效 Rubric 生成式验证器,兼顾验证精度与推理效率
🗂 更多相关工作
Didi
Agent 与沙箱环境交互的端到端旅行规划 RL 框架 ICLR 2448
Ant
基于 Rubric 的自奖励强化学习,无需外部评分器即可处理开放式推理任务 ICLR 2446
CMU
提升 GRPO 训练中概率低但正确回答的奖励权重,缓解少数正确样本被忽视的问题