猫眼电影
猫眼电影记者 巴克 报道首次登录送91元红包
新智元报道
编辑:YHluck
【新智元导读】谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
想象这样一个场景:
你戴着耳机走在印度孟买喧闹的街头,周围是嘈杂的叫卖声和完全听不懂的印地语。
此时,一位当地大叔急匆匆地用印地语向你询问路线,他的语速很快,语气焦急。
若是以前,你可能得手忙脚乱地掏出手机,打开翻译App,按下按钮,尴尬地把手机递到他嘴边,然后听着手机里传出毫无感情的「机翻」电子音。
Nano Banana Pro制图
但现在,一切都变了。
你站在原地不动,耳机里直接传来了流利的中文:「嘿!朋友,麻烦问一下,火车站是不是往这边走?」
最绝的是,这句中文不仅意思准确,甚至连大叔那种焦急、气喘吁吁的语调都完美复刻了!
你用中文回答,耳机自动把你的声音转化成印地语传给对方,甚至保留了你热情的语调。
这不仅是科幻电影里的《巴别塔》重现,这是谷歌本周刚刚扔下的重磅「核弹」——Gemini 2.5 Flash Native Audio(原生音频模型)。
今天,我们就来扒一扒这次更新到底有多强。
所谓的「原生音频」,到底强在哪?
很多人可能会问:「现在的手机不都有朗读功能吗?这有啥稀奇的?」
这里有个巨大的误区。
以前的AI语音交互,流程是这样的:听到声音 -> 转成文字 -> AI思考文字 -> 生成文字回复 ->转化成语音读出来。
这个过程不仅慢,而且在「转来转去」的过程中,语气、停顿、情感这些人类沟通中最微妙的东西,全都丢了。
而谷歌这次发布的Gemini 2.5 Flash Native Audio,核心就在「Native(原生)」这两个字。
它不需要把声音转成文字再转回来,它是直接听、直接想、直接说。
举个栗子,这就好比你和一个老外聊天,以前你需要脑子里疯狂查字典,现在你已经形成了「语感」,脱口而出。
这次更新,谷歌不仅升级了Gemini 2.5 Pro和Flash的文本转语音模型,带来了更强的控制力。
更重要的是,它让实时语音代理(Live Voice Agents)成真了。
这意味着什么?
意味着在Google AI Studio、Vertex AI,甚至是搜索(Search Live)里,你不再是和一个冷冰冰的机器对话,而是在和一个有「脑子」、有「耳朵」的智能体进行实时头脑风暴。
耳机里的「同声传译」
打破语言的巴别塔
这次更新中,最让普通用户感到兴奋的,绝对是实时语音翻译(Live Speech Translation)功能。
谷歌这次没有画饼,功能已经开始在美国、墨西哥和印度的安卓设备上,通过Google翻译App进行Beta测试了(iOS用户稍安勿躁,马上就来)。
这个功能有两个杀手锏,直击痛点:
持续监听与双向对话:真正的「无感」翻译
以前用翻译软件,最烦的就是要不停地点「说话」按钮。
现在,Gemini支持持续监听。
你可以把手机揣兜里,戴上耳机,Gemini会自动把你周围听到的多种语言,实时翻译成你的母语。
这就相当于随身带了个隐形翻译官。
而在双向对话模式下,它更聪明。
比如你会说英语,想和一个说印地语的人聊天。
Gemini能自动识别是谁在说话。
你在耳机里听到的是英语,而当你开口说完话,手机会自动外放印地语给对方听。
你不需要去设置「现在我说」、「现在他说」,系统全自动切换。
风格迁移:连「情绪」都能翻译
这是最让我起鸡皮疙瘩的功能——Style Transfer(风格迁移)。
传统的翻译是「莫得感情」的朗读机器。
但Gemini利用其原生音频能力,能捕捉人类语言的细微差别。
如果对方说话时语调上扬、节奏轻快,翻译出来的声音也会是欢快的;
如果对方语气低沉、犹豫,翻译出来的声音也会带着迟疑。
它保留了说话者的语调、节奏和音高。
这不仅仅是听懂意思,这是听懂态度。
在商务谈判或者吵架的时候,这个功能简直太重要了!
此外,它还支持:
70多种语言和2000多个语言对:覆盖了全球绝大多数人的母语。
多语言混输:即使在一场对话中混杂着几种不同的语言,它也能同时理解,不用你手动切来切去。
噪声鲁棒性:专门针对嘈杂环境优化,过滤背景音。哪怕你在嘈杂的户外市场,也能听得清清楚楚。
开发者狂喜
这个AI终于「听懂人话」了
如果你是开发者,或者想为企业构建客服AI,这次Gemini 2.5 Flash Native Audio带来的三个底层能力提升,绝对是「及时雨」。
函数调用更精准
以前的语音助手,一旦涉及到查天气、查航班这种需要调用外部数据的操作,很容易卡壳或者回答得很生硬。
现在的Gemini 2.5,知道何时该去获取实时信息,并且能把查到的数据无缝地编织进语音回复里,不会打断对话的流畅感。
在专门测试复杂多步骤函数调用的ComplexFuncBench Audio评测中,Gemini 2.5拿下了71.5%的高分,遥遥领先。
更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上与之前版本及行业竞争对手的性能对比
这意味着,它能真正充当一个靠谱的「办事员」,而不是一个只会陪聊的「傻白甜」。
指令遵循更听话
你是不是经常觉得AI听不懂复杂的指令?
谷歌这次下了狠功夫。
新模型对开发者指令的遵循率从84%提升到了90%!
这意味着,如果你要求AI「用这种特定的格式回答,语气要严厉一点,不要废话」,它能更精准地执行你的要求。
对于构建企业级服务来说,这种可靠性才是核心竞争力。
对话更丝滑
多轮对话是AI的老大难问题。
聊着聊着,AI就忘了前面说过啥。
Gemini 2.5在检索上下文方面取得了显著进步。
它能更有效地记住之前的对话内容,让整个交流过程不仅连贯,而且具有逻辑性。
配合上原生音频的低延迟,你会感觉对面真的像坐了一个人。
我们离「贾维斯」还有多远?
谷歌这次的更新,其实是在传递一个明确的信号:
语音交互正在成为下一个时代的入口。
从Gemini Live到Search Live,再到耳机里的实时翻译,谷歌正在把AI从屏幕里解放出来,塞进我们的耳朵里。
对于普通用户:语言的障碍正在被技术铲平。
明年(2026年),这一功能将通过Gemini API扩展到更多产品中。
未来,也许我们真的不再需要花费数年时间痛苦地背单词,一个耳机就能让我们走遍天下。
对于企业:构建一个能听、能说、能办事、有情绪的下一代AI客服,门槛正在大幅降低。
除了原生音频模型外,谷歌还丢出个核弹级实验产品——Disco。
它是来自Google Labs的新发现工具,用于测试未来网络的想法。
它内置了基于谷歌最强模型Gemini 3打造的神器GenTabs。
谷歌直言,目前还处于早期阶段,并非所有功能都能完美运行。
最牛的地方在于,它能看懂你的需求。
GenTabs通过主动理解复杂任务(通过用户打开的标签页和聊天记录)并创建交互式网络应用程序来帮助完成任务,从而帮助浏览网络。
不用写一行代码,它直接把你乱七八糟的标签页和聊天记录,「变」成一个专属的交互式App。
想做周餐计划?想教孩子认识行星?
跟它说人话就行,它自动给你生成工具,所有数据都有据可查,绝不瞎编。
目前macOS版已经开放排队了,虽然还是早期实验版,但这绝对是把「浏览」变成了「创造」。
赶紧冲,这波未来感拉满了!
One More Thing
技术进步的速度往往超乎我们的想象。
昨天我们还在嘲笑Siri听不懂人话,今天Gemini已经开始帮我们进行跨语言的情感交流了。
别光看着,Gemini 2.5 Flash Native Audio现在已经在Vertex AI上全面推出,Google AI Studio里也能试用了。
赶紧去体验一下吧!
或许在听到AI用你的语气说出第一句外语时,你会真切地感受到——未来已来。
参考资料:
https://deepmind.google/blog/
https://x.com/GoogleAI/status/1999560839679082507?s=20
https://blog.google/technology/google-labs/gentabs-gemini-3/
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
时事1:新万博ManBetX全站
12月26日,2025中国保龄球巡回赛总决赛在广州收官,在一次学术会议上,一位哈萨克斯坦知名学者说的话令笔者深受震动。他说,“一带一路”给中亚带来的不仅是公路铁路桥梁隧道,不仅是工业园和各类合作项目,也不仅是中欧班列过境创造的物流机遇,更重要的是给中亚地区带来了中国开放包容合作共赢的思维理念,甚至中亚国家之间的关系改善也在一定程度上要归功于“一带一路”。,黄金城gcgc官网。
12月26日,砀山酥梨“链”接国际市场,而就唐山而言,虽然一季度暂时落后,但其历来都是下半年GDP在全年占比更高,能否率先迈进万亿俱乐部门槛,仍然具有较大悬念。,mgm体育官方,北方网体育,排球即时比分360。
时事2:真钱老虎机手机版
12月26日,新疆多元治沙:从锁边到扩边 沙里“生金”富民,另一方面,相比于政治和安全关系,莫迪推动产业链供应链从中国向印度转移的计划大概率会继续推进。,银河盘口注册在线,尊龙app手机版,正规买球十大平台。
12月26日,中央港澳办协调中央有关部门和广东省继续为香港救灾工作提供协助和支援,2021年10月,在接受组织谈话时,靳东矢口否认了与李某某等商人老板之间存在不正当经济利益关系,并多次表示其所讲属实,愿承担一切责任和后果。但几十天后,被采取留置措施的靳东便将自己的严重违纪违法事实和盘托出。因亲清不分,靳东最终倒在了不法商人的“糖衣炮弹”之下,成为金钱的俘虏,走向了腐化堕落。,至尊平台手机下载,皇冠游戏在线客服,世界杯买球渠道推荐。
时事3:ku游娱乐备用网1
12月26日,多举措促进我国明年经济稳中求进 提质增效,至于重新统计的岛屿数量做何使用,日本国土地理院称,“今后会用在政府统计和学校教科书上。”,开元体育官网登录入口,优信彩票用户登录,彩神彩票官网网站。
12月26日,“十四五”时期西藏实施考古项目200余项,赛意信息作为扎根制造业数智化转型领域的头部企业,坚持以“全栈信创能力”为根基,以持续自主研发创新为内核,凭借多样化的安全产品布局、全面的安全能力建设以及与主流自主创新组件的兼容性,构建覆盖基础硬件、核心软件到应用系统的全栈式自主可控国产替代解决方案,从芯片到操作系统,从中间件到数据库,赛意信息携手生态伙伴赋能企业提供全链条的国产化支持,提供从技术底层到业务应用的全方位安全保障。,kb88凯时在线,酷游App,亚星官方网登录。
时事4:在那个网站买世界杯
12月26日,86国免签+85条直航 海南自贸港入境“丝滑感”再升级,今年前三季度,快手在研发方面的投入达到103.48亿元,同比增长18.3%,约占总营收的10%,连续多个季度保持增长。从公开表述来看,这些研发资源重点投向AI、大数据分析等前沿领域,用于强化业务竞争力。但此次大规模黑灰产攻击的爆发,让外界对这笔不小的投入能否转化为有效的安全防护能力打上了问号。,世界杯买球宇v98典tv,新濠天地娱乐备用网,世界杯投注违法吗。
12月26日,新规已满两年 监管仍存漏洞 购买盲盒年龄门槛形同虚设,这个画面是问天舱内的定向摄像机拍摄的,画面左侧飘着的是液冷服。航天员在舱外活动时会产生热量,需要穿上液冷服散热。,千亿娱乐官网,沙巴体育手机app下载,下载炸金花APP。
责编:贾棠
审核:陈闽东
责编:陈少雄












