谷歌通过Gemini 2.5的原生音频对话和可控语音生成,正在引领下一代多模态AI交互的变革,实现更自然、更低延迟的智能语音体验。
事件时间
- 事件发生时间:2025年6月初
- 报道时间:2025年6月4日
事件概述
2025年6月初,谷歌正式开放了其最新多模态人工智能模型Gemini 2.5的关键新功能预览,重点推出了“原生音频对话(Native Audio Dialog)”和“可控语音生成(Controllable Speech Generation,TTS)”两大技术。该功能允许开发者通过Google AI Studio和Vertex AI平台,直接生成实时语音回复,无需传统的文本转语音中间步骤,极大提升了交互的自然度和响应速度。
Gemini 2.5作为谷歌DeepMind旗下的多模态大模型,天生具备文本、图像、音频、视频及代码的理解与生成能力。此次更新支持流媒体音视频的实时理解与生成,覆盖超过24种语言,并能根据对话语境智能调整语音的情感色彩,带来更沉浸式的使用体验。
开发者可通过“流媒体”标签页体验实时音频对话,通过“生成媒体”标签页体验情绪可控的语音生成。谷歌提供了Flash预览版和功能更完善的Pro版本,满足不同场景需求。
行业影响
谷歌的这一突破显著降低了智能语音交互的延迟与复杂度,推动了智能助理、客服机器人、内容创作及实时翻译等多领域创新应用的发展。原生音频生成技术将成为智能语音交互的新标准,帮助谷歌在与OpenAI、Meta和微软等竞争对手的较量中形成差异化优势。
此外,支持多语言和情感感知的能力强化了全球化和人性化交互的趋势,促进AI技术更广泛普及。开放平台的策略也极大激励了开发者生态系统,推动更多创业公司和独立开发者快速构建创新AI音频应用。
专家普遍认为,Gemini 2.5的音频创新是智能语音交互未来发展的关键,尽管技术的规模化应用和数据隐私保护仍是后续重点,但其对行业的影响已不可忽视。
信息来源
- Gadgets 360报道:Google Opens Access to Gemini 2.5 Native Audio Dialog and Controllable Speech Generation in Preview | Technology News
- 谷歌官方技术博客:Gemini 2.5’s native audio capabilities
- MSPowerUser分析:Gemini 2.5 Gets New Real-time Audio Feature and More - Check Details Here - MSPoweruser
- Google I/O 2025开发者更新:Build transformative AI applications with Google AI
- C# Corner开发者指南:Google Launches Gemini 2.5 with Audio Upgrades