Meta представила новую многоязычную систему автоматического распознавания речи (ASR), поддерживающую свыше 1600 языков. Для сравнения — открытая модель Whisper от OpenAI распознает лишь 99.
Более того, архитектура Omnilingual ASR позволяет разработчикам самостоятельно расширять поддержку — фактически до тысяч языков. Благодаря механизму «zero-shot» обучения в контексте (in-context learning) пользователю достаточно предоставить несколько примеров аудио и текста на новом языке во время работы модели, чтобы она смогла распознавать дальнейшие фразы без дополнительного обучения.