Вы заинтересованы в них? ПРЕДЛОЖЕНИЯ? Экономьте с нашими купонами на WhatsApp o ТЕЛЕГРАММА!

Microsoft VALL-E будет подражать нашему голосу всего через 3 секунды разговора

Январь 11 2023

Всего за 3 секунды ИИ, который никогда не слышал, как вы говорите, может идеально имитировать ваш голос. Это последнее достижение искусственного интеллекта Microsoft — модель преобразования текста в речь VALL-E, которая может скопировать любой голос по желанию всего за 3 секунды речи.

Microsoft VALL-E будет подражать нашему голосу всего через 3 секунды разговора

Он возник из DALL E, но специализируется в области аудио, а эффект преобразования текста в речь стал популярным после того, как он был выпущен в Интернете.

Некоторые пользователи сказали, что если объединить VALL·E и ChatGPT, результат будет потрясающим. Другим кажется, что день, когда можно будет совершать видеозвонки с помощью ИИ, не за горами. Есть даже те, кто шутит, что после того, как ИИ позаботился о писателях и художниках, на очереди актеры озвучивания.

Но как VALL·E имитирует «невиданный» звук за 3 секунды?

VALL-E анализирует звук с помощью языковых моделей. Он синтезирует речь на основе «неслышимых» звуков ИИ, т. е. обучения без выборки.

Традиционное решение для преобразования текста в речь — это, по сути, предтренировочный режим с тонкой настройкой. При использовании в сценарии с нулевой выборкой это приведет к плохому сходству и естественности сгенерированной речи.

Исходя из этого, ВАЛЛ-И появилась из ниоткуда, предложив иную идею, чем традиционная вокальная модель.

По сравнению с традиционной моделью, которая использует спектр Мела для извлечения признаков, VALL-E напрямую рассматривает синтез речи как задачу языковой модели, причем первая является непрерывной, а вторая — дискретной.

В частности, традиционный процесс синтеза речи часто представляет собой путь «фонема → мел-спектрограмма (мел-спектрограмма) → форма волны».

Но ВАЛЛ-Э превратил этот процесс в «фонему → дискретное кодирование звука → форму волны»:

По конструкции модели VALL-E также похож на VQVAE. Квантует звук в серию дискретных токенов. Первый квантизатор отвечает за захват аудиоконтента и идентификационных характеристик говорящего, а вторые квантизаторы отвечают за уточнение сигнала. что звучит более естественно:

Затем, в зависимости от текста и 3-секундной звуковой подсказки, он авторегрессивно выводит дискретное кодирование звука:

Но не только это, в дополнение к синтезу речи с нулевой выборкой, VALL-E также поддерживает редактирование голоса и создание голосового контента в сочетании с GPT-3.

Окружающий фоновый звук также может быть восстановлен

Судя по синтезированным вокальным эффектам, VALL-E может восстановить не только тембр динамика.

Шаг не только имитируется на месте, но и поддерживает различные скорости речи. Например, это две разные скорости речи, обеспечиваемые ВАЛЛ-И, когда одно и то же предложение произносится дважды, но тональное сходство все равно высокое:

В то же время фоновый окружающий звук другой стороны также может быть точно восстановлен.

Кроме того, VALL-E может имитировать различные эмоции говорящего, в том числе несколько типов, таких как злость, сонливость, нейтральность, радость и тошнота.

Стоит отметить, что набор данных, используемый для обучения VALL·E, не особенно велик.

По сравнению с Whisper от OpenAI, для которого потребовалось 680.000 7.000 часов аудиообучения и использовалось только более 60.000 динамиков и XNUMX XNUMX часов обучения, VALL-E превзошел предварительно обученный преобразователь текста в речь с точки зрения сходства с преобразованием текста в речь Model YourTTS.

Кроме того, YourTTS заранее услышал голоса 97 из 108 говорящих во время обучения, но все равно не дотягивает до VALL-E в реальном тесте.

Что касается областей, в которых он может применяться:

Его можно использовать не только для имитации собственного голоса, например, для помощи людям с ограниченными возможностями в разговоре с другими, но и для того, чтобы говорить за себя, когда вы этого не хотите. Конечно, его также можно использовать для записи аудиокниг.

Тем не менее, VALL-E еще не является открытым исходным кодом, и вам, возможно, придется немного подождать, чтобы опробовать его.