搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

谷歌MIT联手:首个智能体Scaling Law出炉,盲目堆Agent性能暴跌70%

2025-12-29 14:22:57
来源:

猫眼电影

作者:

黄湘宁

手机查看

  猫眼电影记者 苏圣杰 报道首次登录送91元红包

↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

AI圈里一直流传着一句信条:“More agents is all you need”(智能体越多越好)。

大家的直觉很简单:一个诸葛亮不够,那就找三个臭皮匠来凑。甚至有人觉得,只要我把一堆AI拉进一个群里,让它们互相讨论、投票,无论什么任务都能做得更好

但现在,Google Research、DeepMind联合MIT的一项重磅研究,给这个想法泼了一盆冷水

https://arxiv.org/pdf/2512.08296

他们做了一场史上最严苛的压力测试,结果发现了一个反直觉的真相:

盲目组建AI团队,不仅不能提升能力,甚至可能把原本聪明的模型搞成“人工智障”,性能暴跌70%。

为此,研究团队总结出了一套 “智能体Scaling Law”,这是第一套能帮你算清楚“到底该单干还是群殴”的数学公式

为了搞清楚AI协作的真相,研究人员没有只测一种模型,而是把市面上最强的三大模型——OpenAI (GPT系列)、Google (Gemini系列)、Anthropic (Claude系列) 全部拉上了擂台

他们设计了180种不同的配置,不仅有单打独斗的(单智能体),还有四种不同的“组队模式”:

1.各自为战: 大家各干各的,最后凑一起。2.中心化指挥: 有个“经理”负责分派任务和检查。3.去中心化讨论:大家围成一圈开会,互相辩论。4.混合模式:既有经理,底下人也能私聊

为了公平,不管是单人还是团队,手里能花的钱(Token预算)和能用的工具都是一样的

测试结果出来后,呈现出了极端的两极分化,就像两个平行宇宙。

宇宙一:人多力量大

在 金融分析(Finance-Agent)这类任务里,多智能体简直杀疯了

因为金融任务可以拆得非常细,比如A查财报,B看K线,C做风控,最后汇总。在这种场景下,找个“经理”来指挥(中心化架构),性能直接比单干提升了80.9%

宇宙二:人多即地狱

但在“规划任务”(PlanCraft,比如在Minecraft里合成物品)里,情况完全失控

这类任务讲究逻辑的连贯性:你得先砍树,才能做木板,再做工作台。步骤环环相扣

结果研究发现,只要引入协作,所有多智能体架构全部崩盘因为大家七嘴八舌地讨论打断了推理的连贯性,把宝贵的计算资源都浪费在了沟通上。比起单干,性能最高暴跌了70%

还有个中间派:

模拟真实职场打工(Workbench)的任务,结果显示,这就属于费力不讨好。折腾半天组建团队,最好的结果也就提升了5.7%,甚至有的架构还倒退了

为什么会出现这种差异?研究团队通过那套Scaling Law公式,像法医一样解剖了背后的原因,找到了三条铁律:

铁律1:工具越重,开会越废(工具-协作权衡)

想象一下,如果一个工匠要用16种不同的锤子和锯子干活

单干时,他拿起工具就干。但如果是个团队,每换个工具都要跟队友确认、同步信息

数据显示,任务需要的工具越多,协作带来的内耗就越严重。在这种“重工具”场景下,把资源花在沟通上简直是浪费,不如留给单人去思考

铁律2:高手不需要队友(能力饱和)

研究划定了一条残酷的“红线”:45%。

如果一个单智能体自己做这道题的准确率已经超过了45%,那么给它加队友往往是负收益

就像学霸做题,自己做能得90分。非要给他配几个60分的队友在旁边指指点点,最后成绩反而会被拉低。

铁律3:没经理的团队是灾难(错误放大)

这是最吓人的数据

如果你让一群AI各自跑结果(独立架构),却没人负责检查,错误率会被放大17.2倍!

因为一个AI犯了错,没纠正,另一个AI接着错,最后错上加错

只有引入“中心化”的经理角色,强制进行检查验证,才能把错误控制住(只放大4.4倍)

结论:算好这笔账

这项研究最大的贡献,就是告诉大家:别迷信人海战术了

Google和MIT把这些发现浓缩成了一个预测模型。现在,只要你输入三个数据:

1. 模型本身聪不聪明?

2. 任务要用多少工具?

3. 这任务能不能拆解?

这个公式就能以87%的准确率告诉你:该单干,还是该组队

简单来说,这就是一本AI算力经济学:在预算有限的情况下,把算力花在让一个大脑深思熟虑上,往往比让一群大脑开会吵架更划算——除非,你真的有一个好经理和容易拆分的任务

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我

 时事1:博体育网址

  12月29日,巴西利美拉举办“中国文化日”,黄建生说,今年,他已经接近退休年龄,基本退居二线。今年4月底,村民发现异常情况后,村委会统一核查,打来电话,黄建生才发现,自己名下也于2013年底注册了“三个工商营业执照”。黄建生称,自己从部队转业回来就在村里当干部,从未做过生意。,银河平台app下载地址。

  12月29日,报告:中国可持续发展综合指数连续9年稳步增长,虽然繁琐辛苦,但在政府补贴和“多囤点地”的激励下,村民们的造林积极性很高。到2000年,柴达木嘎查2万多亩的造林工程分批次顺利完成,树木存活率普遍在85%以上。整个通辽也在这时候完成了生态的逆转。2003年,中科院沙漠化土地空间分布遥感监测显示,“三北防护林”工程实施以来,科尔沁沙地在通辽市范围内的沙漠化面积已减少了1200万亩,在全国四大沙地中,科尔沁沙地唯一出现了治理大于沙化的总体良性逆转。,73棋牌游戏平台,2020赛季欧洲国家杯,利记官网app下载。

 时事2:3台

  12月29日,外交部:任何外部势力胆敢介入台海事务,我们必将迎头痛击,记者通过天眼查工商信息公示系统查询,发现汪争猛、汪绪良、赵和梅名下均有个体工商信息,“个体工商企业”均成立于2012年6月1日,经营范围均为“油茶种植”。,金沙国际真人视讯注册,365体育网安卓版,365体育手机。

  12月29日,中国机动车零部件及配件碳足迹量化迎来专门标准,不过,取消公摊是否能给消费者带来实质性利好、当前全面推行时机是否成熟等尚存在诸多争议。,有可以直接买球的平台么,正规网络扎金花,9O足球即时比分。

 时事3:世界杯买球推荐阵容

  12月29日,我军在台岛周边联合演练阵容显著升级,新华保险推出的“空中柜面”,顾名思义借助视频交互、人脸识别、电子签名等数字技术,打破传统服务对物理网点的依赖,让客户不论身在何处、使用何种设备,都能平等享受专业保单服务。尤其对于老年人、行动不便人群等特殊群体,系统操作简便、服务接入“零门槛”,真正推动保险服务走向普惠通达,助力实现“普惠金融最后一公里”,切实保障每一位消费者的公平交易权与受尊重权。,银河网上开户,hth华体会网页版,冰球突破豪华版太假了。

  12月29日,专家学者共议香港“三大中心”地位与“一带一路”高质量发展,纽约联储的黄金金库位于其位于曼哈顿的主要办公楼的地下室。该金库建于 1920 年代初期,为账户持有人提供了一个安全的位置来存储他们的货币黄金储备。,凯发娱乐手机客户端登入,百家乐真人百家乐,在线玩的斗牛。

 时事4:万博在线登录注册

  12月29日,行走江河看中国|AI解码中国治水的硬核实力,6月13日,河南全省抗旱暨安全生产电视电话会议召开。河南省委书记楼阳生在会上指出,近日,全省大部地区出现连续高温少雨天气,土壤失墒严重,旱情发展迅速,高温易引发的森林防灭火、危化品生产储存运输、户外施工、城乡燃气等领域安全风险加大。要突出抓好安全生产、森林防火、抗旱保苗、饮水保障。,手机在线金沙版,太阳城电子游戏下载,万博manbetx登录注册。

  12月29日,广东湛江今年前11个月对东盟进出口同比增长9.5%,这种伙伴式的开发体验也让知乎鸿蒙技术团队印象深刻。知乎鸿蒙技术负责人高攀回忆,知乎鸿蒙版App上架之初,评论列表出现了卡顿问题,内部排查进度相对缓慢。令他意外的是,鸿蒙突击队的技术人员获悉情况后,主动联系并且进行现场沟通和指导,最终很快就定位到了具体问题,对App进行了优化。这种“鸿蒙速度”才是真正意义上的“共创”。,九州app体育,银河手机app,威尼斯人盘口网站。

责编:叶慧萍

审核:黄宗菱

责编:张育冰

相关推荐 换一换