Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Краткое резюме

В библиотеке silero-stress появилась поддержка 19 языков России и СНГ. Для русского и украинского языков разработаны акценторы с 100% точностью, для остальных — опубликованы словари и описан алгоритм простановки ударений.

Наша библиотека silero-stress, предназначенная для корректной простановки ударений в обычных словах и омографах, недавно получила обновление до версии v1.2. В новой версии реализованы следующие возможности: * Добавлен акцентор для украинского языка, основанный на словаре объёмом в 3 миллиона слов. * Словари ударений для 18 языков России и СНГ опубликованы в открытом доступе. * Если слово отсутствует в словаре, ударение проставляется с помощью алгоритма. Подробности приведены в таблице ниже. * Пакет был обновлён. Для русского и украинского языков были созданы акценторы, которые демонстрируют 100% точность на исходном словаре и способны с некоторой вероятностью определять ударения в неизвестных словах. При этом акценторы занимают примерно в сто раз меньше места, чем сами словари. Для остальных языков мы опубликовали собранные словари и описали алгоритм простановки ударений в неизвестных словах. Для большинства языков словари были размечены вручную, и оказалось, что для большинства из них в первом приближении можно использовать эвристику «ставить ударение на первый/последний слог». Это позволяет обойтись без полноценного акцентора, обученного на большом словаре. Поскольку словари для большинства языков, кроме русского и украинского, получились небольшими, мы вынесли функционал расстановки ударений для малоресурсных языков в отдельный модуль. Если будет поддержка и запрос от сообщества, мы будем добавлять языки «на основу» по мере развития проекта. Что касается омографов, то пока неясно, сможем ли мы их реализовать, но никогда нельзя говорить «никогда». Также мы рассматриваем возможность создания акцентора для белорусского языка, но для этого в идеале нужен словарь ударений объёмом несколько миллионов слов. | Язык | Словарь (количество слов) | Акцентор | Словарь размечен вручную | Алгоритм доразметки | |---|---|---|---|---| | Русский | ~4 млн | акцентор + классификатор омографов | частично | — | | Украинский | ~3 млн | акцентор | частично | — | | Белорусский | 24 тыс. | словарь | да | только словарь | | Якутский | 86 тыс. | словарь + алгоритм | частично | последний слог | | Азербайджанский (латиница) | 11 тыс. | словарь + алгоритм | да | последний слог | | Азербайджанский (кириллица) | 11 тыс. | словарь + алгоритм | да | последний слог | | Армянский | 8,5 тыс. | словарь + алгоритм | да | последний слог | | Башкирский | 9,7 тыс. | словарь + алгоритм | да | последний слог | | Грузинский | 12,5 тыс. | алгоритм | нет | предпоследний слог | | Кабардинский | 5,5 тыс. | словарь + алгоритм | да | последний слог | | Казахский | 6,8 тыс. | словарь + алгоритм | да | последний слог | | Калмыцкий | 9 тыс. | алгоритм | нет | последний слог | | Киргизский | 11,7 тыс. | словарь + алгоритм | да | последний слог | | Мокшанский | 5,3 тыс. | словарь + алгоритм | да | первый слог | | Таджикский | 9 тыс. | словарь + алгоритм | да | последний слог | | Татарский | 11,5 тыс. | словарь + алгоритм | да | последний слог |

Краткое резюме

Фильтры и сортировка