Интернет-магазин MagazinWeb

OpenAI анонсирует аудиоинструмент “Voice Engine”, который может клонировать человеческие Голоса с помощью 15-Секундного Аудио

Голосовой движок может создавать речь, которая звучит как речь отдельных людей, с их специфической интонацией.

OpenAI Previews 'Voice Engine' Audio Tool That Can Clone Human Voices With 15 Seconds of Audio

Другие технологии искусственного интеллекта уже использовались для подделки голосов в некоторых контекстах

Реклама

OpenAI делится ранними результатами тестирования функции, которая может читать слова вслух убедительным человеческим голосом — освещая новые рубежи в области искусственного интеллекта и повышая риск глубокой подделки. По словам представителя, компания делится ранними демонстрациями и примерами использования из небольшого предварительного просмотра модели преобразования текста в речь под названием Voice Engine, которой она уже поделилась примерно с 10 разработчиками. OpenAI отказалась от более широкого внедрения этой функции, о чем проинформировала журналистов ранее в этом месяце.

Представитель OpenAI сказал, что компания решила сократить выпуск после получения отзывов от заинтересованных сторон, таких как политики, отраслевые эксперты, преподаватели и креативщики. Первоначально компания планировала предоставить инструмент 100 разработчикам в рамках процесса подачи заявок, согласно более раннему брифингу для прессы.

“Мы признаем, что создание речи, похожей на голоса людей, сопряжено с серьезными рисками, которые особенно актуальны в год выборов”, – написала компания в своем блоге в пятницу. “Мы взаимодействуем с американскими и международными партнерами из правительства, средств массовой информации, сферы развлечений, образования, гражданского общества и за его пределами, чтобы гарантировать, что мы учитываем их отзывы при создании”.

Другие технологии искусственного интеллекта уже использовались для подделки голосов в некоторых контекстах. В январе поддельный, но реалистично звучащий телефонный звонок якобы от президента Джо Байдена призвал жителей Нью-Гэмпшира не голосовать на праймериз — событие, которое усилило опасения по поводу искусственного интеллекта в преддверии важных глобальных выборов.

В отличие от предыдущих попыток OpenAI по созданию аудиоконтента, Voice Engine может создавать речь, которая звучит как речь отдельных людей, с их специфической интонацией. Все, что требуется программному обеспечению, – это 15 секунд аудиозаписи говорящего человека, чтобы воссоздать его голос.

Во время демонстрации инструмента Bloomberg прослушал ролик, в котором главный исполнительный директор OpenAI Сэм Альтман кратко объясняет технологию голосом, который звучал неотличимо от его реальной речи, но был полностью сгенерирован искусственным интеллектом.

“При правильной настройке звука это, по сути, голос человеческого уровня”, – сказал Джефф Харрис, руководитель отдела продуктов OpenAI. “Это довольно впечатляющее техническое качество”. Однако, по словам Харриса, “Очевидно, что способность действительно точно имитировать человеческую речь сопряжена с большими трудностями в плане безопасности”.

Один из нынешних партнеров OpenAI по разработке, использующий этот инструмент, Институт неврологии Нормана Принса при некоммерческой системе здравоохранения Lifespan, является использование технологий, помогающих пациентам восстановить свой голос. Например, инструмент был использован для восстановления голоса молодой пациентки, которая потеряла способность четко говорить из-за опухоли головного мозга, путем воспроизведения ее речи с более ранней записи для школьного проекта, говорится в сообщении в блоге компании.Пользовательская речевая модель OpenAI также может переводить генерируемый ею звук на разные языки. Это делает его полезным для компаний аудиобизнеса, таких как Spotify Technology SA. Spotify уже использовала эту технологию в своей собственной пилотной программе для перевода подкастов популярных ведущих, таких как Лекс Фридман. OpenAI также рекламировал другие полезные приложения технологии, такие как создание более широкого спектра голосов для образовательного контента для детей.

В рамках программы тестирования OpenAI требует от своих партнеров согласиться с ее политикой использования, получить согласие от оригинального диктора, прежде чем использовать его голос, и сообщить слушателям, что голоса, которые они слышат, сгенерированы искусственным интеллектом. Компания также устанавливает неразборчивый звуковой водяной знак, позволяющий отличить, был ли фрагмент звука создан с помощью ее инструмента.

Прежде чем принять решение о более широком распространении функции, OpenAI заявила, что запрашивает отзывы внешних экспертов. “Важно, чтобы люди во всем мире понимали, куда движется эта технология, независимо от того, будем ли мы в конечном итоге широко внедрять ее сами или нет”, – говорится в сообщении компании в блоге.

OpenAI также написала, что надеется, что предварительный просмотр ее программного обеспечения “мотивирует необходимость укрепления общественного устойчивость” к вызовам, создаваемым более совершенными технологиями искусственного интеллекта. Например, компания призвала банки постепенно отказаться от голосовой аутентификации в качестве меры безопасности для доступа к банковским счетам и конфиденциальной информации. Она также стремится к информированию общественности о вводящем в заблуждение контенте с использованием искусственного интеллекта и дальнейшей разработке методов определения того, является ли аудиоконтент реальным или сгенерированным с помощью искусственного интеллекта.

© 2024 Bloomberg L.P.

  • Генератор искусственного интеллекта OpenAI Sora будет доступен позже в этом году: Отчет
  • Сервис создания видео OpenAI находится под пристальным вниманием к конфиденциальности Данных в ЕС

Является ли Samsung Galaxy Z Flip 5 лучшим складным телефоном, который вы можете купить в Индии прямо сейчас? Мы обсуждаем новый складной телефон компании в стиле раскладушки в последнем выпуске подкаста Orbital “Гаджеты 360”. Orbital доступен на Spotify, Gaana, JioSaavn, Google Podcasts, Apple Podcasts, Amazon Music и везде, где вы получаете свои подкасты.

(Эта история не редактировалась сотрудниками NDTV и автоматически сгенерирована из синдицированного канала.)

Партнерские ссылки могут генерироваться автоматически – подробности смотрите в нашем заявлении об этике.