Новости по тегу "lm-as-a-judge"

Подборка публикаций, содержащих тег "lm-as-a-judge". Актуальные темы и важные события.

Нет изображения

POLLUX: оценка генеративных способностей моделей для русского языка

Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают...

30.06.2025 13:04
2