Новости по тегу "evaluation"
Подборка публикаций, содержащих тег "evaluation". Актуальные темы и важные события.

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях
Всем привет! Авторы бенчмарка MERA этим летом не только анонсировали отраслевую ветку — MERA Industrial, но и рады сообщить о расширении проекта...

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %
Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее....

[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты
Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде...

LLM as a Judge: опыт оптимизации генератора описаний Pull Request
Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход...

AST — Absolutely Superior Treatment
Я часто говорю, что если язык лишен встроенных средств работы с AST — абстрактным синтаксическим деревом — то этот язык спроектирован не очень...