Новости по тегу "bench"
Подборка публикаций, содержащих тег "bench". Актуальные темы и важные события.

[Перевод] Обработка асинхронных операций с Flowable: Бенчмарки производительности
Когда речь заходит о производительности BPM-ldb;rf, главным показателем является пропускная способность заданий и таймеров. Проще говоря: чем...

От промтов к агентам: как мы дошли до трансформеров, что LLM умеют уже сейчас и что нас ждёт в 2027 году
Привет! Меня зовут Александр Фролов, я data scientist отдела машинного обучения в Нетологии. В этой статье я коротко расскажу, откуда взялись LLM,...

Гайд: как не дать сайту упасть в сезон
Компании уделяют много внимания внешнему виду сайта и его юзабилити. Это действительно важно, но в погоне за красотой нельзя упускать главное:...

POLLUX: оценка генеративных способностей моделей для русского языка
Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают...

Project Vend: может ли языковая модель продавать чипсы и вольфрам?
В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого...

[Перевод] Анатомия неудачного микробенчмарка
В новом переводе от команды Spring АйО подробно разбираются концептуальные, методологические и технические ошибки, на которые легко наткнуться при...

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права
Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaRВсе...

Эффективный инференс множества LoRA адаптеров
LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно,...

Тестирование производительности c PHPBench: что и как?
PHPBench - это, кажется, крайне не популярный фреймворк для тестирования производительности кода на PHP. По крайней мере за 18 лет он мне ни разу...

Function splitting и чистый код
Сложная и тяжелая статья с непропорционально простым выводом. Вспомним фон Неймана, затронем процессорный кеш, поговорим про регистры и...

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench
В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных...

Внутристраничная очистка в индексах PostgreSQL
Внутристраничная очистка (HOT cleanup) – это оптимизация, благодаря которой старые версии строк могут эффективно удаляться из блоков таблиц....