DeepSeek прокачивает RL: генеративная reward-модель с «рассуждением»
В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга.
Inference-Time Scaling for Generalist Reward Modeling