Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.
С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.
В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции.
Читать далее