谷歌开放Gemini 2.5原生音频对话功能,掀智能语音交互新革命

谷歌通过Gemini 2.5的原生音频对话和可控语音生成,正在引领下一代多模态AI交互的变革,实现更自然、更低延迟的智能语音体验。

事件时间

  • 事件发生时间:2025年6月初
  • 报道时间:2025年6月4日

事件概述

2025年6月初,谷歌正式开放了其最新多模态人工智能模型Gemini 2.5的关键新功能预览,重点推出了“原生音频对话(Native Audio Dialog)”和“可控语音生成(Controllable Speech Generation,TTS)”两大技术。该功能允许开发者通过Google AI Studio和Vertex AI平台,直接生成实时语音回复,无需传统的文本转语音中间步骤,极大提升了交互的自然度和响应速度。

Gemini 2.5作为谷歌DeepMind旗下的多模态大模型,天生具备文本、图像、音频、视频及代码的理解与生成能力。此次更新支持流媒体音视频的实时理解与生成,覆盖超过24种语言,并能根据对话语境智能调整语音的情感色彩,带来更沉浸式的使用体验。

开发者可通过“流媒体”标签页体验实时音频对话,通过“生成媒体”标签页体验情绪可控的语音生成。谷歌提供了Flash预览版和功能更完善的Pro版本,满足不同场景需求。

行业影响

谷歌的这一突破显著降低了智能语音交互的延迟与复杂度,推动了智能助理、客服机器人、内容创作及实时翻译等多领域创新应用的发展。原生音频生成技术将成为智能语音交互的新标准,帮助谷歌在与OpenAI、Meta和微软等竞争对手的较量中形成差异化优势。

此外,支持多语言和情感感知的能力强化了全球化和人性化交互的趋势,促进AI技术更广泛普及。开放平台的策略也极大激励了开发者生态系统,推动更多创业公司和独立开发者快速构建创新AI音频应用。

专家普遍认为,Gemini 2.5的音频创新是智能语音交互未来发展的关键,尽管技术的规模化应用和数据隐私保护仍是后续重点,但其对行业的影响已不可忽视。

信息来源