Исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека, если вы получите 3-секундный образец звука. Распознавая определенный голос, VALL-E может синтезировать голос этого человека и делать это таким образом, чтобы сохранить эмоциональный тон говорящего, согласно ArsTechnica.
Создатели VALL-E предполагают, что его можно использовать для высококачественных программ создания текста в речь и аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3.
Microsoft называет VALL-E «моделью языка нейронных кодеков», она построена поверх технологии EnCodec, которую Meta представила в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют его путем манипулирования сигналами, VALL-E генерирует отдельные коды аудиокодеков из текста и акустических сигналов. По сути, он анализирует, как человек звучит, разбивает эту информацию на отдельные компоненты (так называемые «токены») благодаря EnCodec и использует обучающие данные для согласования того, что ИИ «знает» о том, как этот голос будет звучать, если он произнесет другие фразы.
На веб-сайте VALL-E Microsoft предоставляет десятки аудио примеров модели ИИ в действии. Среди сэмплов «Speaker Prompt» есть трехсекундный звук, предоставленный VALL-E, который он должен имитировать. «Основная истина» — это существующая запись того же оратора, который произносит определенную фразу для сравнения (например, «контроль» в эксперименте). «Базовый» является примером синтеза, который обеспечивается обычным методом синтеза текста в речь, а образец «VALL-E» является результатом модели VALL-E.
В дополнение к сохранению вокального тембра и эмоционального тона динамика, VALL-E также может имитировать «акустическую среду» аудио сэмпла. Например, если образец пришел из телефонного звонка, он будет имитировать акустические и частотные свойства телефонного звонка. А примеры Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать изменения тона голоса, изменяя случайное начальное число, используемое в процессе генерации.
Исследователи, похоже, знают о потенциальном социальном ущербе, который может нанести эта технология, поэтому они отмечают следующее:
«Поскольку VALL-E может синтезировать язык, который сохраняет идентичность говорящего, он может нести потенциальные риски при неправильном использовании модели, таких как подделка голосовой идентификации или выдача себя за конкретного говорящего. Чтобы снизить такие риски, можно построить модель для определения того, был ли аудиоклип синтезирован VALL-E. Мы также будем применять принципы искусственного интеллекта Microsoft на практике по мере дальнейшей разработки моделей».