Внимание! Механизм внимания в трансформерах оказывается не таким уже незаменимым

Механизм внимания в трансформерах, который уже много лет “is all we need”, оказывается не таким уже незаменимым. 

Это, конечно, не очень правдивый заголовок, но зато привлекает внимание. На самом деле речь пойдет о различных попытках заменить или хотя бы облегчить механизм внимания в трансформерах. Он во многом обеспечил успех моделей последних лет, но он же остается одним из узких мест. Дело в квадратичной сложности вычислений, из-за которой приходится ограничивать размеры входной последовательности. Ну и вообще, несмотря на все преимущества внимания, хотелось бы, чтобы оно, как основной двигатель моделей, было более экономично. 

Читать далее
11