Для понимания структуры и процессов в AGI системе, давайте рассмотрим решения на текущий момент: LLM - большая языковая модель, архитектура трансформер.
Трансформер представляет собой преобразователь текста: входной текст преобразуется в наиболее вероятный токен (часть слова) предсказанный моделью.
Информация основана на подробном разборе кода трансформера GPT2 и DeepSeekV3.
Подробная формула:
Input
- вход или промпт.
Tokens = Tokenize(Input)
,
Output = Ptokens = Attention(Tokens) + FeedForward(Tokens)
.
Здесь мы видим что преобразование задается функцией! Т.е оно линейно. Наиболее вероятный токен затем выбирается с помощью случайного значения если задана температура. Т.е здесь случайность влияет в конце и только на выбор токена. Поэтому температура при больших значениях может иметь непредсказуемый результат. Внутри функции Attention: есть матрицы Wq, Wk, Wv и FeedForward: Wa, Wb которые подбираются таким образом чтобы ошибка предсказанного значения имела минимальное значение. Как это делается? Мы видим что само преобразование задается математической функцией и задача в том чтобы найти такие значения матриц чтобы результирующая функция потерь LOSS имела меньшее значение чем текущее. Как же это делается? Это называется backpropagation и вычисляется через градиент функции. Для этого все слои Attention, FeedForward представляются в виде вычислительного графа который называется TensorFlow.
Вершины графа — это операции, ребра это входные значения. Каждой вершине соответствует некоторая функция. Для примера рассмотрим такую функцию:
Читать далее