Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.
За последний год мы сильно переработали наше API переводчика, сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод.
Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060.
Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Сейчас перевод на арабский больше всего интересен наши клиентам, которые ходят зайти на этот рынок. Стоит отдельно отметить результаты тестов на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.
Читать далее