Skip to main content

Исследовательская группа Microsoft представила VALL-E 2 — новую систему искусственного интеллекта для синтеза речи, способную генерировать голоса «на уровне человеческого» с помощью всего нескольких секунд звука, неотличимые от источника.

«(VALL-E 2) является последним достижением в области моделей языка нейронных кодеков, которое знаменует собой важную веху в области синтеза текста в речь с нуля (TTS), впервые достигая человеческого паритета», — говорится в исследовательской статье. Система основана на своей предшественнице VALL-E, представленной в начале 2023 года. Модели языка нейронных кодеков представляют речь как последовательности кода.

Команда заявила, что VALL-E 2 отличается от других методов клонирования голоса его методом «Repetition Aware Sampling» и адаптивным переключением между методами сэмплирования. Стратегии улучшают согласованность и решают наиболее распространенные проблемы в традиционном генеративном голосе.

«VALL-E 2 стабильно синтезирует высококачественную речь, даже для предложений, которые традиционно сложны из-за своей сложности или повторяющихся фраз», — пишут исследователи, отмечая, что технология может помочь генерировать речь людям, которые теряют способность говорить.

Однако, каким бы впечатляющим он ни был, этот инструмент не будет доступен широкой публике.

«В настоящее время у нас нет планов по включению VALL-E 2 в продукт или расширению доступа к нему для общественности», — говорится в заявлении Microsoft об этике, где отмечается, что подобные инструменты несут в себе такие риски, как имитация голоса без согласия и использование убедительных голосов ИИ в мошенничестве и других преступных действиях.

Исследовательская группа подчеркнула необходимость стандартного метода цифровой маркировки поколений ИИ, признав, что обнаружение контента, созданного ИИ, с высокой точностью по-прежнему остается сложной задачей.

«Если модель обобщается на невидимых говорящих в реальном мире, она должна включать протокол, гарантирующий, что говорящий одобряет использование своего голоса, и модель обнаружения синтезированной речи», — пишут они.

Тем не менее, результаты VALL-E 2 очень точны по сравнению с другими инструментами. В серии тестов, проведенных исследовательской группой, VALL-E 2 превзошел человеческие эталоны по надежности, естественности и схожести сгенерированной речи.

Изображение: МайкрософтИзображение: Майкрософт

VALL-E-2 смог достичь этих результатов всего с 3 секундами аудио. Однако исследовательская группа отметила, что «использование 10-секундных речевых образцов привело к еще лучшему качеству».

Microsoft — не единственная компания ИИ, которая продемонстрировала передовые модели ИИ, не выпуская их в свет. Voicebox от Meta и Voice Engine от OpenAI — два впечатляющих клона голоса, которые также сталкиваются с аналогичными ограничениями.

«Существует множество интересных вариантов использования генеративных речевых моделей, но из-за потенциальных рисков ненадлежащего использования мы на данный момент не делаем модель или код Voicebox общедоступными», — сообщил представитель Meta AI изданию Decrypt в прошлом году.

Кроме того, OpenAI пояснила, что сначала пытается решить проблему безопасности, прежде чем запускать свою модель синтетических голосов.

«В соответствии с нашим подходом к безопасности ИИ и нашими добровольными обязательствами мы решили на данный момент провести предварительный просмотр, но не выпускать эту технологию широко», — пояснила OpenAI в официальном сообщении в блоге.

Призыв к этическим нормам распространяется в сообществе ИИ, особенно по мере того, как регулирующие органы начинают выражать обеспокоенность относительно влияния генеративного ИИ на нашу повседневную жизнь.

В целом интеллектуальный информационный бюллетень

Еженедельное путешествие в мир ИИ, рассказанное Дженом — генеративной моделью ИИ.

Оставить комментарий