Новости по тегу "benchmark"
Подборка публикаций, содержащих тег "benchmark". Актуальные темы и важные события.

[Перевод] Обработка асинхронных операций с Flowable: Бенчмарки производительности
Когда речь заходит о производительности BPM-ldb;rf, главным показателем является пропускная способность заданий и таймеров. Проще говоря: чем...

От промтов к агентам: как мы дошли до трансформеров, что LLM умеют уже сейчас и что нас ждёт в 2027 году
Привет! Меня зовут Александр Фролов, я data scientist отдела машинного обучения в Нетологии. В этой статье я коротко расскажу, откуда взялись LLM,...

Гайд: как не дать сайту упасть в сезон
Компании уделяют много внимания внешнему виду сайта и его юзабилити. Это действительно важно, но в погоне за красотой нельзя упускать главное:...

POLLUX: оценка генеративных способностей моделей для русского языка
Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают...

[Перевод] Анатомия неудачного микробенчмарка
В новом переводе от команды Spring АйО подробно разбираются концептуальные, методологические и технические ошибки, на которые легко наткнуться при...

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права
Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaRВсе...

Эффективный инференс множества LoRA адаптеров
LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно,...

Function splitting и чистый код
Сложная и тяжелая статья с непропорционально простым выводом. Вспомним фон Неймана, затронем процессорный кеш, поговорим про регистры и...

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench
В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных...