Оглавление
Диффузионные языковые модели (DLM) представляют собой революционную альтернативу традиционным авторегрессионным большим языковым моделям (AR-LLM), таким как GPT. Если AR-LLM генерируют текст последовательно, токен за токеном, справа налево, что приводит к линейному росту времени и вычислительных затрат с увеличением длины ответа, то DLM заимствуют идею из успешных диффузионных моделей изображений и аудио. Они учатся восстанавливать текст из зашумленной версии, постепенно «размывая» шум и уточняя ответ. Это позволяет DLM генерировать текст целиком и итеративно улучшать его качество, что открывает возможности для более быстрой и когерентной генерации за счет параллельного обновления нескольких токенов и возможности исправления ошибок в процессе.
Читать далее