Представлен MERA Multi — первый российский мультимодальный бенчмарк

Краткое резюме

«Альянс в сфере ИИ» представил MERA Multi — первый российский мультимодальный бенчмарк для оценки языковых моделей. Он включает 18 новых задач и проверяет понимание текста, изображений, аудио и видео.

«Альянс в сфере ИИ» представил MERA Multi — первый в России мультимодальный бенчмарк для оценки языковых моделей Эксперты «Альянса в сфере ИИ» объявили о запуске MERA Multi — инновационного российского бенчмарка, предназначенного для всесторонней оценки мультимодальных возможностей современных моделей на русском языке. Бенчмарки экосистемы MERA представляют собой независимую систему тестов, проверяющих функциональные возможности больших языковых моделей на русском языке. Ранее в состав MERA входили текстовые тесты и отдельные разделы, такие как MERA Code для задач программирования и MERA Industrial для отраслевых сценариев. С появлением MERA Multi экосистема претерпела расширение: теперь модели подвергаются оценке по задачам, связанным с пониманием изображений, аудио и видео. Этот первый открытый мультимодальный бенчмарк был разработан с учётом языковой и культурной специфики России. MERA Multi включает в себя 18 новых задач, созданных по методологии бенчмарка MERA Text. Эти задачи направлены на проверку ключевых мультимодальных навыков моделей: * Визуальное восприятие: способность анализировать изображения, распознавать объекты, интерпретировать сцены и соотносить их с текстовым описанием. Это необходимо для систем генерации и поиска по картинкам, а также для применения ИИ в системах безопасности. * Аудиопонимание: способность обрабатывать аудиоконтент на русском языке, распознавать речь, интонации и звуковые сигналы. Этот навык важен для голосовых ассистентов и приложений, работающих в условиях шума. * Анализ видео: способность ИИ «понимать» динамику видеоконтента, отслеживать действия, события и причинно-следственные связи во временном контексте. Это основа для интеллектуальных ассистентов, агентов и мультимодального поиска. Каждая задача представлена в строгом инструктивном формате. MERA Multi охватывает четыре модальности — текст (как базовую), изображения, аудио и видео — и оснащён прозрачной системой подсчёта баллов и рейтингов. Это позволяет исследователям и представителям индустрии количественно сравнивать, насколько хорошо современные модели «видят», «слышат» и понимают контент на русском языке. Проект MERA Multi также способствует стандартизации оценки ИИ в России. Разработчики создали единую «таксономию навыков» — системное описание компетенций, необходимых для мультимодальных задач. В перспективе все бенчмарки MERA будут использовать одну систему навыков, что обеспечит «согласованную и прозрачную оценку моделей во всех доменах». Такой единый подход упрощает сравнение моделей между собой и выявление направлений для улучшения. Кроме того, MERA Multi разработан экспертами с учётом российской специфики, что делает результаты особенно актуальными для отечественных научных групп и индустриальных разработчиков.

Краткое резюме

Фильтры и сортировка