AGI: от идеи к реализации, часть 3: архитектура трансформер и идеи для улучшения

Для понимания структуры и процессов в AGI системе, давайте рассмотрим решения на текущий момент: LLM - большая языковая модель, архитектура трансформер.

Трансформер представляет собой преобразователь текста: входной текст преобразуется в наиболее вероятный токен (часть слова) предсказанный моделью.

Информация основана на подробном разборе кода трансформера GPT2 и DeepSeekV3.

Подробная формула:

Input - вход или промпт.

Tokens = Tokenize(Input),

Output = Ptokens = Attention(Tokens) + FeedForward(Tokens).

Здесь мы видим что преобразование задается функцией! Т.е оно линейно. Наиболее вероятный токен затем выбирается с помощью случайного значения если задана температура. Т.е здесь случайность влияет в конце и только на выбор токена. Поэтому температура при больших значениях может иметь непредсказуемый результат. Внутри функции Attention: есть матрицы Wq, Wk, Wv и FeedForward: Wa, Wb которые подбираются таким образом чтобы ошибка предсказанного значения имела минимальное значение. Как это делается? Мы видим что само преобразование задается математической функцией и задача в том чтобы найти такие значения матриц чтобы результирующая функция потерь LOSS имела меньшее значение чем текущее. Как же это делается? Это называется backpropagation и вычисляется через градиент функции. Для этого все слои Attention, FeedForward представляются в виде вычислительного графа который называется TensorFlow.

Вершины графа — это операции, ребра это входные значения. Каждой вершине соответствует некоторая функция. Для примера рассмотрим такую функцию:

Фильтры и сортировка