Мир после трансформеров: закат и новый рассвет больших языковых моделей

Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели.

Эпоха трансформеров началась стремительно, и Marvel здесь ни при чём. Исследование OpenAI «Scaling Laws for Neural Language Models» показало, что эта архитектура с механизмом самовнимания легко масштабируется. Производительность LLM предсказуемо растёт с увеличением размера модели, объёма датасетов и доступных вычислительных ресурсов, а это — залог коммерческого успеха. Поэтому в 2020-2021 начался бум развития LLM. Каждая крупная ИТ-компания хотела представить свою модель с миллиардами параметров (и получить миллиарды долларов от инвесторов).

Однако в последующей работе «Training Compute-Optimal Large Language Models» от DeepMind появилось важное уточнение: существующие модели слабо оптимизированы по отношению данных к параметрам. Поэтому при дальнейшей разработке моделей стали фокусироваться в том числе и на качестве данных, а не только на размере. 

Поначалу простое масштабирование и увеличение доли качественных датасетов в обучающих наборах действительно приводили к экспоненциальному росту возможностей LLM. Наверняка вы помните, как с каждым релизом ChatGPT умнел (а мы глупели).

📌 Похожие новости

Нет изображения

Попросил ChatGPT-4o и ChatGPT-5 помочь вкатиться в ML. Да они же одинаковые, Наташ

Все считают 5-ю версию лучше, выше, сильнее. Но есть ли разница для обычного пользователя, который...

29.10.2025 08:51
Нет изображения

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB,...

29.10.2025 08:18
Нет изображения

Длинное мышление против жёстких пайплайнов: как DeepAgent превращает рассуждение в действие

Почему ИИ-агенты в реальных задачах за пределами академических экспериментов до сих пор часто...

28.10.2025 13:54
Нет изображения

Объяснимые нейросети (XAI): почему ИИ должен быть прозрачным?

Всем привет. Сегодня хочу затронуть важную и интересную тему объясняемых нейросетей (XAI). «Почему...

30.08.2025 08:05
Нет изображения

SONAR-LLM — учим нейросети думать предложениями вместо слов

Привет, Хабр. Меня зовут Никита Драгунов, я из команды «Интерпретируемый ИИ» лаборатории...

29.08.2025 13:46
Нет изображения

Умный вайб-кодинг или семь раз отмерь, один раз сгенерь

Помните старую поговорку про семь раз отмерь? В мире AI-кодинга она обрела новый смысл. Сегодня...

29.08.2025 08:15