Искусственный интеллект давно перестал быть набором скучных алгоритмов. Это и художник, который рисует словами, и переводчик, что ломает языковые барьеры, и музыкант, играющий на голосовых нотах. Но есть у него ещё одно дело, в котором он преуспел, — синтез речи.
Но всё ли так гладко?
Просто тараторить текст — мало. Настоящий голос должен видеть запятые, чувствовать паузы, играть интонациями и уметь погружать. Он должен звучать не как робот, а как рассказчик с характером. С душой — насколько это вообще возможно для машины.
Поэтому мы устроим кастинг четырём нейросетям. Послушаем, как они звучат, как держат паузы, как справляются с эмоциями. И главное — попробуем понять: насколько близко они подошли к имитации живого рассказчика.
А чтобы было интересно, мы вдохновились атмосферой «Хоббита». Интересно, смогла бы нейросеть рассказать о приключениях лучше самого Бильбо Бэггинса?
Сегодня алгоритмы получат Толкина, омографы, арабский язык — и замок, который может быть замком.
Готовьте Ваши уши — мы начинаем!
Читать далее