Новости по тегу "lm-as-a-judge"
Подборка публикаций, содержащих тег "lm-as-a-judge". Актуальные темы и важные события.

POLLUX: оценка генеративных способностей моделей для русского языка
Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают...