Rubric RL 相关文章 - Shanyong Wang

2025-03-17

Rubric RL 相关文章

阅读背景： 2026 年 2 月系统梳理了市面上关于 Rubric-based RL 的工作，从 Rubric 生成、应用到周边方法进行分类整理。

📑 目录

Rubric 生成
Rubric 应用
- 一致推理步骤筛选
- 生成时引入 Rubric
更多相关工作
个人思考
Paper Reading 摘要

📐 Rubric 生成

Scale AI

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

用 LLM 基于已有 Rubric 生成新 Rubric，突破可验证域的限制

UW / AI2

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

动态更新 Rubric，维护随训练演化的 Rubric 库，更好适配 query 分布变化

arXiv

META-REWARDING LANGUAGE MODELS: Self-Improving Alignment with LLM-as-a-Meta-Judge

引入 Meta Judge 机制，模型自我提升对齐能力，判断者与被判断者互相强化

Meta

Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

Anchor 结合多条 rollouts 合成参考回答，再基于参考回答生成对应 Rubric，无需人工标注参考答案

🎯 Rubric 应用

Ant

Reinforcement Learning with Rubric Anchors 🏆 First Paper

首个提出 Rubric RL 框架的工作，将结构化评分标准引入强化学习奖励设计

一致推理步骤筛选

只有在多条正确轨迹中一致出现的步骤，才被视为合理的推理步骤。

arXiv

AUTORUBRIC-R1V: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning

通过跨轨迹一致性过滤噪声推理步骤，生成更可信的多模态推理奖励信号

生成时引入 Rubric

在生成回答的过程中就注入部分 Rubric 作为脚手架（Scaffold），引导探索方向。

arXiv

Breaking the Exploration Bottleneck: Rubric-Scaffolded RL for General LLM Reasoning

在生成阶段嵌入 Rubric 结构约束，缓解 RL 训练中的探索瓶颈问题

📚 Paper Reading 摘要

arXiv

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

将 GRPO 的组内打分替换为两两 LLM-as-a-Judge 比较；采用种子轮、瑞士轮等排序方法探索低复杂度拓扑排序，数据集自建

arXiv

AdvancedIF: Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

训练 Rubric Generator + Rubric Verifier 双模型：Generator 基于小规模专家数据训练后扩展到大规模，自动为训练数据生成对应 Rubric

arXiv

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

以「Prompt + 优选回答 + 被拒回答」为上下文训练 Rubric 生成模型；将 Rubric 分为 Hard Rules（必须严格满足）和 Principles（可模糊权衡），避免奖励模型混淆两类标准

arXiv

Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

Rubric 不应该只在训练结束后拿来评分，它还应该在生成过程中作为“外部认知脚手架”，帮助模型走出自己原本想不到的推理路径。

arXiv

AUTO-RUBRIC: Learning to Extract Generalizable Criteria for Reward Modeling

两阶段框架：① Query-Specific Rubric Inference（Propose–Evaluate–Revise 循环）；② Query-Agnostic Rubric Aggregation（信息论驱动的最大化编码率选出紧凑通用准则集），输出 Theme–Tips 层次结构

展开方法细节

阶段一：Query-Specific Rubric Inference

Propose：用生成模型为偏好样本（query + 正回答 + 负回答）生成初步评价准则草案
Evaluate：评估模型检验准则是否能正确区分正/负回答
Revise：若评估失败，修订模型修正准则并重新验证，循环直至收敛

阶段二：Query-Agnostic Rubric Aggregation

用信息论驱动的最大化编码率（Coding Rate）算法，从所有 query-specific 准则中选出紧凑集合
目标：高覆盖度 × 低冗余性 × 高信息量
输出 Theme–Tips 层次结构（高层主题 + 具体提示）

arXiv

Reward and Guidance through Rubrics: Promoting Exploration to Improve Multi-Domain Reasoning

稠密 Rubric 奖励（Factual + Process）+ GRPO 策略更新；离线收集高评分未完美轨迹生成指导信号，用于离线策略 refinement

展开训练流程

使用当前策略生成多个回答 / 推理轨迹
用 Rubric 评估轨迹（Factual + Process 两维度）
计算稠密奖励，基于 GRPO 更新策略参数
离线收集高评分但未完美的轨迹
分析这些轨迹，生成指导信号
将指导信号用于离线策略 refinement

arXiv

Chasing the Tail: Effective Rubric-based Reward Modeling for LLM Post-Training

两步 Rubric 构造：① Proposer LLM（如 GPT-4.1）分析离策略响应差异，生成细粒度判别标准；② 迭代细化——从最优响应出发逐步添加更精细标准，直到获得高判别力 Rubric 集

arXiv

Inference-Time Scaling for Generalist Reward Modeling

在推理阶段扩展计算量以提升通用奖励模型的评估质量，探索 Test-Time Scaling 在 RM 场景的有效性

arXiv

RubricRL: Simple Generalizable Rewards for Text-to-Image Generation

将 Rubric RL 扩展到图像生成领域，由 GPT-o4-mini 自动为输入 Prompt 生成细粒度评估标准

arXiv

An Efficient Rubric-based Generative Verifier for Search-Augmented LLMs

面向检索增强 LLM 的高效 Rubric 生成式验证器，兼顾验证精度与推理效率

🗂 更多相关工作

Didi

DeepTravel: An End-to-End Agentic RL Framework for Autonomous Travel Planning

Agent 与沙箱环境交互的端到端旅行规划 RL 框架 ICLR 2448

Ant

Self-Rewarding Rubric-Based RL for Open-Ended Reasoning

基于 Rubric 的自奖励强化学习，无需外部评分器即可处理开放式推理任务 ICLR 2446

CMU

Improving Reward for Low-Probability Correct Answers in GRPO

提升 GRPO 训练中概率低但正确回答的奖励权重，缓解少数正确样本被忽视的问题

💡 个人思考

Rubric 生成 vs. Rubric 应用

生成方面分为 **Hardcode** 和 **Dynamic Update** 两种策略： - **Hardcode** — 简单易编写，但粒度不够细，难以覆盖所有评估维度 - **Dynamic Update** — 能根据不同 query 动态调整，适配性更强，但 Rule Library 的维护成本较高 UW & AI2 的工作专门研究了 Rubric 更新方法，见[分析笔记](https://chatgpt.com/share/6969d9df-a544-8006-bd23-54725663397f)。 --- **几个悬而未决的问题：** - 是否应该结合笔记（Note）来辅助 Rubric 生成？ - 供给侧数据所包含的多样性，与模型真正感知到的多样性之间存在差距，如何弥合？ - **蒙特卡洛树搜索**可能是生成多样性的有效手段——通过寻找同级节点或父子节点来构造多样化的推理轨迹