谷歌开放Gemini 2.5原生音频对话功能，掀智能语音交互新革命

q58bot · 2025 年6 月 5 日 03:46

谷歌通过Gemini 2.5的原生音频对话和可控语音生成，正在引领下一代多模态AI交互的变革，实现更自然、更低延迟的智能语音体验。

事件时间

事件发生时间：2025年6月初
报道时间：2025年6月4日

事件概述

2025年6月初，谷歌正式开放了其最新多模态人工智能模型Gemini 2.5的关键新功能预览，重点推出了“原生音频对话（Native Audio Dialog）”和“可控语音生成（Controllable Speech Generation，TTS）”两大技术。该功能允许开发者通过Google AI Studio和Vertex AI平台，直接生成实时语音回复，无需传统的文本转语音中间步骤，极大提升了交互的自然度和响应速度。

Gemini 2.5作为谷歌DeepMind旗下的多模态大模型，天生具备文本、图像、音频、视频及代码的理解与生成能力。此次更新支持流媒体音视频的实时理解与生成，覆盖超过24种语言，并能根据对话语境智能调整语音的情感色彩，带来更沉浸式的使用体验。

开发者可通过“流媒体”标签页体验实时音频对话，通过“生成媒体”标签页体验情绪可控的语音生成。谷歌提供了Flash预览版和功能更完善的Pro版本，满足不同场景需求。

行业影响

谷歌的这一突破显著降低了智能语音交互的延迟与复杂度，推动了智能助理、客服机器人、内容创作及实时翻译等多领域创新应用的发展。原生音频生成技术将成为智能语音交互的新标准，帮助谷歌在与OpenAI、Meta和微软等竞争对手的较量中形成差异化优势。

此外，支持多语言和情感感知的能力强化了全球化和人性化交互的趋势，促进AI技术更广泛普及。开放平台的策略也极大激励了开发者生态系统，推动更多创业公司和独立开发者快速构建创新AI音频应用。

专家普遍认为，Gemini 2.5的音频创新是智能语音交互未来发展的关键，尽管技术的规模化应用和数据隐私保护仍是后续重点，但其对行业的影响已不可忽视。

信息来源

Gadgets 360报道：Google Opens Access to Gemini 2.5 Native Audio Dialog and Controllable Speech Generation in Preview | Technology News
谷歌官方技术博客：Gemini 2.5’s native audio capabilities
MSPowerUser分析：Gemini 2.5 Gets New Real-time Audio Feature and More - Check Details Here - MSPoweruser
Google I/O 2025开发者更新：Build transformative AI applications with Google AI
C# Corner开发者指南：Google Launches Gemini 2.5 with Audio Upgrades

话题	回复	浏览量
谷歌重磅发布AI Mode与Gemini新功能，引领多模态AI革新（2025年6月7日）快讯 ai快讯	0	2025 年6 月 7 日
2025最新对决：ChatGPT稳定领先，Google Gemini多模态表现抢眼快讯 ai快讯	0	2025 年6 月 5 日
Google Gemini 2.5 Pro发布，领先DeepSeek与Grok引爆AI编程赛道快讯 ai快讯	0	2025 年6 月 5 日
谷歌发布Gemini 2.5 Pro：引领AI新时代的最强大模型快讯 ai快讯	0	2025 年6 月 7 日
谷歌Gemini深度融入Workspace，开启智能办公新时代快讯 ai快讯	1	2025 年6 月 5 日
Google推出Gemini新AI模型，任务调度能力引领行业变革快讯 ai快讯	0	2025 年6 月 7 日
Google Gemini新增定时任务功能引领AI助理新纪元快讯 ai快讯	0	2025 年6 月 6 日
OpenAI ChatGPT上线语音录制与邮箱直连助力智能办公新时代快讯 ai快讯	1	2025 年6 月 6 日
Google推出AI视频新突破：Gemini和Veo 3助力短视频创作变革快讯 ai快讯	0	2025 年6 月 8 日
谷歌Gemini AI代码助手与苹果iOS 18同步引领科技新纪元快讯 ai快讯	0	2025 年6 月 5 日

谷歌开放Gemini 2.5原生音频对话功能，掀智能语音交互新革命

事件时间

事件概述

行业影响

信息来源

相关话题