Интернет-магазин MagazinWeb

Google открывает доступ к диалогу Audio Gemini 2.5 и управляемому генерации речи в предварительном просмотре

< h2 class = "sdesc" > Google говорит, что нативный звуковой диалог с Gemini 2.5 поддержит более 24 языков и позволит смешивать языки.

< img src = "https://i.gadgets360cdn.com/large/gemini_audio_output_1749037789481.jpg? downsize=950:*" alt = "Google Opens Access to Gemini 2.5. Нативный звуковой диалог и управляемая речевая генерация в предварительном просмотре "width =" 950 "height =" 633 "/> < p class = 'Подпись' > Google говорит, что все аудио выходные данные из ее моделей встроены с синтидом

Реклама < P >Google представила новые возможности генерации звука с моделями Gemini 2.5 в Google I/O 2025. Технический гигант, основанный на Mountain View, теперь позволяет разработчикам и частным лицам проверять эти функции на своей платформе. Две новые возможности включают в себя натуральный звуковой диалог и управляемый текст в речь (TTS) с предварительным просмотром Flash Gemini 2.5. В то время как первое может национально генерировать человеческий звук, отвечая на подсказки пользователей, последний может преобразовать любой сценарий в разговорную речь. These features are currently not available to developers via application programming interfaces (APIs).

Google Showcases Gemini 2.5 Flash’s Audio Output Capabilities

In a blog post, the tech giant detailed the features Из этих двух режимов генерации аудио, подчеркивая, как разработчики могут использовать их для создания новых впечатлений для людей. В настоящее время на вкладке потока Google AI Studio можно опробовать нативный диалог аудио, тогда как функция TTS может быть протестирована на вкладке Generate Media в AI Studio.

< P >Настоящий звуковой диалог с предварительным просмотром Flash Gemini 2.5 предназначен для разговоров в режиме реального времени между пользователем человека и ИИ. Пользователь может либо ввести подсказку, либо говорить по ней, и ИИ отвечает устно. Этот процесс непосредственно генерирует аудио, вместо сначала генерируя текст, а затем преобразует его в речь.

< P > Есть также несколько преимуществ в этом. Он поддерживает аффективный диалог, что означает, что когда Gemini 2.5 Flash отвечает на тон голоса пользователя, он может распознать эмоции, стоящие за упомянутыми словами. Он может понять, когда пользователь звучит напугано, злится или удивлен и отвечает соответствующим образом.

< P > Помимо этого, функция генерации звука может выражать эмоции при разговоре, принять разные акценты и лингвистические стили, могут получить такие инструменты, как Google, и поддерживает более 24 языков. Генерация, может производить эмоции и акценты, рассказывая сценарий, контроль скорости доставки и подчеркнуть произношение, и поддерживает те же 24 языка и языка.

< ul > < li > Gmail теперь покажет вам расписание по электронной почте с силовым питанием

< li > Близнецы могут получить более разумный инструмент для выбора и обмена ответами

< li > Google Sergey Brin, выходя из выхода на пенсию, дорожную карту в AGI

< P > Google говорит, что эти возможности были оценены на предмет потенциальных рисков в процессе разработки. Компания использовала как внутренние механизмы, так и Red Teaming, чтобы найти и исправить любые уязвимости. Компания также подчеркнула, что все аудио выходные данные из этих моделей встроены с синтидом, технологией водяного знака.