Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам.
Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета AIConf X и Highload от «Онтико».
Мы поговорили о том, какие реальные задачи решают мультимодальные LLM, зачем бизнесу модели, которые «умеют всё», и почему мультиканальность — это только шаг на пути, но ещё не конечная станция в развитии ИИ.
Читать далее