Тег: benchmark

Строка из чисел

Популярная задача — определить, состоит ли строка только из числовых символов. Например, нужно проверить, что пользователь правильно ввел номер...

07.08.2025 07:14

20

0

Выжимаем максимум из Postgres на RTABench Q0

Время от времени приходится слышать мнение, что Postgres никуда не годится для решения задач аналитики. При при этом, в качестве аргументации...

01.08.2025 08:11

22

0

[Перевод] Обработка асинхронных операций с Flowable: Бенчмарки производительности

Когда речь заходит о производительности BPM-ldb;rf, главным показателем является пропускная способность заданий и таймеров. Проще говоря: чем...

15.07.2025 06:03

29

0

От промтов к агентам: как мы дошли до трансформеров, что LLM умеют уже сейчас и что нас ждёт в 2027 году

Привет! Меня зовут Александр Фролов, я data scientist отдела машинного обучения в Нетологии. В этой статье я коротко расскажу, откуда взялись LLM,...

11.07.2025 07:45

29

0

Гайд: как не дать сайту упасть в сезон

Компании уделяют много внимания внешнему виду сайта и его юзабилити. Это действительно важно, но в погоне за красотой нельзя упускать главное:...

07.07.2025 15:33

34

0

POLLUX: оценка генеративных способностей моделей для русского языка

Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают...

30.06.2025 13:04

30

0

[Перевод] Анатомия неудачного микробенчмарка

В новом переводе от команды Spring АйО подробно разбираются концептуальные, методологические и технические ошибки, на которые легко наткнуться при...

28.06.2025 13:29

45

0

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaRВсе...

28.06.2025 10:41

34

0

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно,...

27.06.2025 08:19

36

0

Function splitting и чистый код

Сложная и тяжелая статья с непропорционально простым выводом. Вспомним фон Неймана, затронем процессорный кеш, поговорим про регистры и...

11.06.2025 10:34

50

0

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных...

07.06.2025 11:17

36

0

Новости по тегу "benchmark"