Новости по тегу "evaluation"

Подборка публикаций, содержащих тег "evaluation". Актуальные темы и важные события.

Нет изображения

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях

Всем привет! Авторы бенчмарка MERA этим летом не только анонсировали отраслевую ветку — MERA Industrial, но и рады сообщить о расширении проекта...

18.07.2025 12:18
11
Нет изображения

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее....

12.07.2025 00:21
12
Нет изображения

[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты

Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде...

16.05.2025 07:00
27
Нет изображения

LLM as a Judge: опыт оптимизации генератора описаний Pull Request

Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход...

13.05.2025 07:00
29
Нет изображения

AST — Absolutely Superior Treatment

Я часто говорю, что если язык лишен встроенных средств работы с AST — абстрактным синтаксическим деревом — то этот язык спроектирован не очень...

12.04.2025 12:07
39