Новости по тегу "benchmark"

Подборка публикаций, содержащих тег "benchmark". Актуальные темы и важные события.

Нет изображения

[Перевод] Обработка асинхронных операций с Flowable: Бенчмарки производительности

Когда речь заходит о производительности BPM-ldb;rf, главным показателем является пропускная способность заданий и таймеров. Проще говоря: чем...

15.07.2025 06:03
6
Нет изображения

От промтов к агентам: как мы дошли до трансформеров, что LLM умеют уже сейчас и что нас ждёт в 2027 году

Привет! Меня зовут Александр Фролов, я data scientist отдела машинного обучения в Нетологии. В этой статье я коротко расскажу, откуда взялись LLM,...

11.07.2025 07:45
8
Нет изображения

Гайд: как не дать сайту упасть в сезон

Компании уделяют много внимания внешнему виду сайта и его юзабилити. Это действительно важно, но в погоне за красотой нельзя упускать главное:...

07.07.2025 15:33
9
Нет изображения

POLLUX: оценка генеративных способностей моделей для русского языка

Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают...

30.06.2025 13:04
11
Нет изображения

[Перевод] Анатомия неудачного микробенчмарка

В новом переводе от команды Spring АйО подробно разбираются концептуальные, методологические и технические ошибки, на которые легко наткнуться при...

28.06.2025 13:29
15
Нет изображения

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaRВсе...

28.06.2025 10:41
12
Нет изображения

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно,...

27.06.2025 08:19
11
Нет изображения

Function splitting и чистый код

Сложная и тяжелая статья с непропорционально простым выводом. Вспомним фон Неймана, затронем процессорный кеш, поговорим про регистры и...

11.06.2025 10:34
24
Нет изображения

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных...

07.06.2025 11:17
15