Как ИИ научился думать картинками

Современные ИИ-модели достигли впечатляющих успехов в понимании текстов и изображений, однако все еще не идеальны в задачах, где важна визуальная интуиция, таких как навигация и планирование действий. Сегодня большинство моделей конвертируют визуальную информацию в текстовую и только затем принимают решения, что приводит к потере важных деталей и делает решение задач менее интуитивным.

Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

Читать далее

📌 Похожие новости

Нет изображения

Попросил ChatGPT-4o и ChatGPT-5 помочь вкатиться в ML. Да они же одинаковые, Наташ

Все считают 5-ю версию лучше, выше, сильнее. Но есть ли разница для обычного пользователя, который...

29.10.2025 08:51
Нет изображения

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB,...

29.10.2025 08:18
Нет изображения

Мир после трансформеров: закат и новый рассвет больших языковых моделей

Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой...

29.10.2025 08:00
Нет изображения

Длинное мышление против жёстких пайплайнов: как DeepAgent превращает рассуждение в действие

Почему ИИ-агенты в реальных задачах за пределами академических экспериментов до сих пор часто...

28.10.2025 13:54
Нет изображения

Объяснимые нейросети (XAI): почему ИИ должен быть прозрачным?

Всем привет. Сегодня хочу затронуть важную и интересную тему объясняемых нейросетей (XAI). «Почему...

30.08.2025 08:05
Нет изображения

SONAR-LLM — учим нейросети думать предложениями вместо слов

Привет, Хабр. Меня зовут Никита Драгунов, я из команды «Интерпретируемый ИИ» лаборатории...

29.08.2025 13:46