Шоу-бизнес

Inference-Time Scaling for Generalist Reward Modeling

DeepSeek прокачивает RL: генеративная reward-модель с «рассуждением»

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга.

30.05.2025 14:29

Шоу-бизнес

Источник: Все публикации подряд на Хабре

Вернуться к ленте

Фильтры и сортировка