球皇体育,在这里发现兴趣,分享快乐,记录生活的每个精彩瞬间

首页 >新闻 >社会新闻

当AI学会了想象：阿里和中科院如何让视频生成模型突破创意的边界

2025-12-23 23:18:04

来源：

猫眼电影

作者：

姚王

手机查看

　　猫眼电影记者廖贻东报道首次登录送91元红包

这是一项由中国科学院大学、阿里巴巴高德地图事业部、中国科学院自动化研究所以及清华大学、东南大学的研究团队共同完成的突破性研究。论文由吴美琪、朱家树、冯晓坤、陈楚彬、朱晨等多位研究者撰写，已发表在2025年10月的学术预印本平台上，论文编号为arXiv:2510.14847v2。

一、为什么AI总是在想象力上失手

你有没有试过给AI描述一个奇异的场景，比如"一只骆驼在沙漠里打包行李"或者"一只熊在草地上操控遥控器"？如果你试过，你可能会发现AI生成的视频往往显得生硬、不自然，甚至完全无法理解你的意思。这不是因为AI不够聪明，而是因为它遇到了一个根本性的问题：它从未见过这样的场景。

现在的视频生成模型在处理日常、真实的场景时表现得相当不错。你让它生成一个"人在沙滩上走路"的视频，它可能做得很好。但当你要求它生成一些想象力十足的、超现实的场景时，效果就会急剧下降。这背后的原因很有意思——这些奇异场景涉及的概念之间距离很远，它们在真实世界中几乎不会同时出现。

想象你在学习一门新语言。如果你学的是"苹果"和"红色"这样经常一起出现的词汇，学起来很容易。但如果要你学"紫色的数学"这样的组合，就会困难得多，因为这两个概念在现实中几乎没有关联。AI也是这样。它的训练数据主要来自真实世界的视频，而真实世界中，骆驼就是骆驼，它们走路、吃草，很少去"打包行李"。当AI被要求生成这样的场景时，它就陷入了困境。

二、ImagerySearch：让AI学会做白日梦

阿里和中科院的研究团队提出了一个巧妙的解决方案，叫做ImagerySearch。这个方法的灵感来自一个有趣的心理学理论——人类在想象奇异场景时，会花更多的时间和精力来构建心理意象。换句话说，当你想象"一只熊操控遥控器"时，你的大脑会比想象"一个人走路"时更加努力地工作。

ImagerySearch就是按照这个原理来设计的。它包含两个核心部分，像是两个相互配合的工具。第一个工具叫做"语义距离感知的动态搜索空间"，简单来说就是让AI根据你描述的场景有多"奇异"来调整自己的工作方式。如果你描述的是一个很常见的场景，AI就可以快速生成；如果你描述的是一个非常奇异的场景，AI就会放慢脚步，花更多时间和计算资源来探索各种可能性。

这就像你在做一道菜。如果是炒青菜这样的简单菜肴，你可以快速完成。但如果要做一道从未见过的创意菜肴，你就需要更多时间来尝试不同的配料和烹饪方法。AI也是这样——对于常见的场景，它可以直接套用已知的模式；对于奇异的场景，它需要更多的"尝试"。

第二个工具叫做"自适应意象奖励"。这是一个评分系统，用来判断AI生成的视频有多好。但这个评分系统不是固定的，它会根据你描述的场景的复杂程度来调整自己的评分标准。对于简单场景，它会严格要求视频的美观度；对于复杂场景，它会更加关注视频是否准确理解了你的描述。这就像一个老师在改卷子，对于简单题目要求高，对于难题只要学生理解了核心概念就给分。

三、如何衡量AI的想象力：LDT-Bench的诞生

但问题来了——如果我们要评估AI在想象力上的进步，用什么标准呢？现有的评估方法都是针对真实场景设计的，对于奇异场景就不太适用了。研究团队意识到这一点，决定创建一个全新的评估基准，名叫LDT-Bench。

LDT-Bench的构建过程相当有趣。研究团队首先从大规模的图像和视频数据库中提取了物体和动作。他们从ImageNet-1K中获取了1938种物体（从骆驼到遥控器，应有尽有），从Kinetics-600等视频数据库中获取了901种动作（从走路到打包，五花八门）。然后，他们用一个巧妙的方法来找出那些"最不相关"的配对。

想象你有一张巨大的地图，上面标记了所有物体和动作的位置。距离越远的两个点，就代表它们在现实世界中越不可能同时出现。研究团队就是按照这个逻辑，找出了距离最远的配对，比如"骆驼打包行李"或"熊操控遥控器"。最终，他们构建了一个包含2839个提示的数据集，涵盖了各种奇异的场景组合。

但仅有提示还不够，还需要一套评估方法。研究团队设计了一个叫做ImageryQA的评估框架，包含三个部分。第一部分叫ElementQA，它检查视频中是否出现了提示中提到的物体和动作。比如，如果提示是"熊操控遥控器"，它就会问"视频中出现了熊吗？""熊在操控遥控器吗？"第二部分叫AlignQA，它评估视频的视觉质量和美学效果。第三部分叫AnomalyQA，它检查视频中是否出现了不自然的现象，比如物体突然消失或运动违反物理规律。

这三部分评估就像一个全面的体检。ElementQA检查你是否理解了医生的指示，AlignQA检查你的整体健康状况，AnomalyQA检查是否有任何异常情况。

四、ImagerySearch的工作原理：一场精心编排的舞蹈

现在让我们深入了解ImagerySearch具体是如何工作的。为了理解这一点，我们需要先了解视频生成的基本原理。

现代的视频生成模型使用一种叫做扩散的技术。简单来说，这就像是在倒放一个视频。在正常的视频中，你看到的是从模糊到清晰的过程。但在扩散模型中，过程是反向的——模型从完全的噪声开始，逐步去除噪声，最终生成一个清晰的视频。这个过程分为很多步骤，通常需要几十甚至几百步才能完成。

ImagerySearch在这个过程中插入了一些"检查点"。在这些检查点处，模型会生成几个不同的候选视频，然后用评分系统给它们打分，最后只保留最好的那些，继续进行后续的去噪过程。这就像是在烹饪一道复杂的菜肴时，每隔一段时间就尝一下味道，如果不对就调整调料，然后继续烹饪。

但这里有个聪明的地方——模型不是在每一步都做这样的检查，而是只在特定的几个关键步骤做检查。研究团队通过分析发现，相邻的去噪步骤对视频的改变很小，只有在某些特定的步骤才会产生显著的变化。所以，他们选择了四个关键的检查点（第5、20、30、45步），这样既能保证质量，又不会浪费太多的计算资源。

现在让我们回到ImagerySearch的两个核心部分。第一部分——语义距离感知的动态搜索空间——的工作方式是这样的：首先，模型会计算你的提示中各个概念之间的"距离"。这个距离是通过一个文本编码器（比如T5或CLIP）来计算的。编码器会把每个词转换成一个数字向量，然后计算向量之间的距离。距离越大，说明这两个概念在现实世界中越不相关。

一旦计算出了这个距离，模型就会根据距离来调整搜索空间的大小。具体的公式很简单：候选视频的数量等于基础数量乘以一个与语义距离成正比的因子。换句话说，如果你的提示涉及的概念距离很远，模型就会生成更多的候选视频；如果距离很近，模型就会生成较少的候选视频。这样做的好处是，对于简单的任务，模型可以快速完成；对于复杂的任务，模型有更多的机会找到好的解决方案。

第二部分——自适应意象奖励——是一个更复杂的评分系统。它综合考虑了多个因素，包括视频的运动质量、文本与视频的对齐程度、视觉质量等。但关键的是，这些因素的权重不是固定的，而是会根据语义距离动态调整。对于语义距离大的提示，模型会更加强调文本对齐的重要性；对于语义距离小的提示，模型会更加关注视觉质量。

这就像是一个评委在评判艺术作品。对于一个传统的风景画，评委会严格要求色彩的准确性和构图的美感。但对于一个超现实主义作品，评委就会更加关注艺术家是否成功传达了他的创意意图，而不是过分强调技术细节。

五、实验结果：数字背后的故事

研究团队进行了大量的实验来验证ImagerySearch的有效性。他们在两个主要的数据集上进行了测试：自己创建的LDT-Bench和现有的VBench。

在LDT-Bench上，结果相当令人印象深刻。基础模型Wan2.1的总体评分是48.28分。当应用了ImagerySearch后，评分提升到了57.11分，提升幅度达到了8.83个百分点。这是一个相当显著的改进。更有趣的是，与其他最先进的测试时间缩放方法（比如Video-T1和EvoSearch）相比，ImagerySearch也表现得更好。这说明ImagerySearch不仅有效，而且相比现有的方法有明显的优势。

在更细致的评估中，我们可以看到ImagerySearch在三个方面都有改进。在ElementQA上（检查物体和动作是否出现），从1.66分提升到2.01分。在AlignQA上（检查视觉质量），从31.62分提升到36.82分。在AnomalyQA上（检查异常现象），从15.00分提升到18.28分。这说明ImagerySearch在所有方面都有改进，不是某一个方面特别强，而是全面提升。

在VBench上的表现也很不错。VBench是一个更加全面的评估基准，包含了多个维度的评估，比如美学质量、背景一致性、动态程度等。在这个基准上，ImagerySearch的平均评分是83.48分，比基础模型Wan2.1的78.53分提高了4.95个百分点。更重要的是，ImagerySearch在动态程度和主体一致性这两个维度上表现特别突出，这正是处理奇异场景所需要的。

六、稳定性和可扩展性：ImagerySearch的隐藏优势

除了在评分上的提升，研究团队还发现了ImagerySearch的另外两个重要优势。

第一个优势是稳定性。当语义距离增加时（也就是说，提示变得越来越奇异），不同的模型的表现会出现很大的波动。基础模型Wan2.1的表现会随着语义距离的增加而急剧下降。其他的测试时间缩放方法也会出现明显的波动。但ImagerySearch的表现相对稳定，即使在面对最奇异的场景时，也能保持相对一致的质量。这就像是一个经验丰富的厨师，无论菜肴有多复杂，都能保持相对稳定的质量。

第二个优势是可扩展性。研究团队测试了当增加计算资源时，模型的表现如何变化。他们用一个叫做"函数评估次数"的指标来衡量计算量。结果显示，ImagerySearch的表现随着计算量的增加而持续改进，而其他方法的表现在增加到一定程度后就停止改进了。这说明ImagerySearch能更有效地利用额外的计算资源。

七、消融研究：每个部分都很重要

为了确保ImagerySearch的两个核心部分都是必要的，研究团队进行了消融研究。这就像是在做一道菜时，逐个移除一个配料，看看效果如何。

当只使用基础模型时，VBench的评分是78.53分。当添加语义距离感知的动态搜索空间时，评分提升到81.30分。当添加自适应意象奖励时，评分提升到82.11分。当两个部分都使用时，评分达到83.48分。这清楚地表明，两个部分都有贡献，而且它们的贡献是相加的，这说明它们是互补的。

研究团队还测试了使用固定搜索空间大小而不是动态调整的效果。结果显示，固定大小的搜索空间（无论是0.5倍还是0.9倍）的表现都不如动态调整的好。这进一步证实了动态调整的重要性。

八、与其他方法的比较：为什么ImagerySearch更胜一筹

研究团队还比较了ImagerySearch与其他几种搜索策略的表现，比如Best-of-N（简单地生成N个视频，然后选择最好的）和粒子采样（一种更复杂的采样方法）。结果显示，ImagerySearch的表现都更好。这说明，不仅是动态调整很重要，ImagerySearch采用的具体搜索策略也是经过精心设计的。

九、实际应用的启示

这项研究对于视频生成技术的实际应用有什么启示呢？首先，它表明了一个重要的事实：现有的视频生成模型在处理真实场景时表现很好，但在处理创意、奇异的场景时仍然有很大的改进空间。这对于那些希望使用AI来创作创意内容的人来说是个好消息——虽然现在还不完美，但通过更聪明的方法，我们可以显著改进。

其次，这项研究展示了一个有趣的方向：不一定要重新训练模型或收集更多的训练数据，只需要在推理时使用更聪明的策略，就可以显著改进性能。这对于那些无法访问大量训练数据或计算资源的人来说特别有价值。

第三，这项研究提出的LDT-Bench为未来的研究提供了一个有用的评估工具。现在，研究者可以用这个基准来测试他们的模型在处理创意场景时的能力，而不仅仅是在处理真实场景时的能力。

十、未来的可能性

虽然ImagerySearch已经取得了显著的成果，但研究团队也指出了未来的改进方向。他们计划探索更灵活的奖励机制，可能会考虑使用强化学习或其他高级技术来进一步优化奖励函数。他们也可能会考虑如何将这种方法扩展到其他类型的生成任务，比如图像生成或文本生成。

此外，随着视频生成模型本身的不断进步，ImagerySearch这样的推理时优化方法可能会变得越来越重要。因为即使模型本身变得更强大，处理创意任务的难度仍然会存在，而聪明的推理策略可以帮助模型更好地应对这些挑战。

十一、对AI创意能力的思考

这项研究触及了一个深层的问题：AI是否真的能够进行创意思考？ImagerySearch的成功表明，至少在某种程度上，AI可以通过更聪明的推理策略来模拟创意思考的过程。它不是通过理解创意的本质，而是通过更多地探索可能性空间，并更聪明地评估这些可能性。

这就像是一个作家在创作一部新颖的小说时，不是凭空想象，而是通过大量的阅读、思考和修改来逐步完善自己的作品。AI也可以通过类似的过程来生成创意内容，虽然底层的机制可能完全不同。

说到底，ImagerySearch的核心贡献在于它展示了一个重要的原则：有时候，解决问题的关键不在于拥有更多的知识或更强大的工具，而在于如何更聪明地使用现有的工具。这个原则不仅适用于AI，也适用于人类的许多活动。

Q1：ImagerySearch是什么，它为什么能帮助AI生成更好的创意视频？

A：ImagerySearch是一种在视频生成过程中使用的智能搜索策略。它根据你描述的场景有多"奇异"来动态调整AI的工作方式——对于常见场景快速处理，对于奇异场景则花更多时间和资源探索。它包含两个核心部分：一个根据概念距离调整搜索范围的系统，和一个根据场景复杂度调整评分标准的系统。这样AI就能更好地处理那些在现实中很少出现的创意场景。

Q2：LDT-Bench是什么，为什么需要创建这样一个新的评估基准？

A：LDT-Bench是一个专门用来评估AI在处理创意、奇异场景时能力的数据集和评估框架。它包含2839个提示，涵盖了各种不常见的物体和动作组合。现有的评估方法主要针对真实场景设计，对于创意场景就不太适用。LDT-Bench填补了这个空白，让研究者能够系统地测试和改进AI的创意能力。

Q3：ImagerySearch相比现有的视频生成方法有什么具体的优势？

A：ImagerySearch在多个方面都有优势。在LDT-Bench上，它比基础模型提升了8.83个百分点。与其他最先进的方法相比，它也表现更好。更重要的是，当场景变得越来越奇异时，ImagerySearch的表现相对稳定，而其他方法的表现会急剧下降。此外，ImagerySearch能更有效地利用额外的计算资源，当增加计算量时，它的表现会持续改进。

时事1：现金游艺导航下载

12月23日,11月份物价数据彰显经济韧性与潜力,“当年李娜一度手握13个国内外知名品牌代言，而郑钦文在奥运夺冠之前已有10个代言品牌。”纪宁认为，网球目前在中国的热度已今非昔比，李娜时代已奠定的中国网球经济的热度，在郑钦文夺冠后会被逐渐引爆。纪宁还表示，网球作为全球顶级的职业体育和商业体育项目，正逐步释放巨大的产业经济空间。,bet9手机下载。

12月23日,（同心抗战）台湾抗日志士罗福星孙女：当祖国领土被异族侵犯，作为中华民族应奋起反抗,青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程；甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚；西安和乌鲁木齐都表示，咸阳机场、天山机场的改扩建工程，能助力西安、乌鲁木齐打造“一带一路”核心枢纽。,手机买球APP下载,网络游戏斗地主,每天3元救济金斗地主。

时事2：棋牌斗牛二八杠

12月23日,郁达夫纪念馆在印尼棉兰开馆,今年36岁的李樟煜，已经在残疾人自行车项目征战多年。2012年伦敦残奥会，他第一次实现了残奥冠军梦。接下来，从里约到东京，再到巴黎，他带着梦想破风前行，每届残奥会都有金牌入账。据介绍，李樟煜获得的各类国际赛事奖牌已有50多枚。,沙巴体育滚球首页,乐动体育下载地址,芒果体育网页。

12月23日,浙江慈溪取暖器热销欧洲市场,新疆维吾尔自治区党委书记马兴瑞、自治区主席艾尔肯·吐尼亚孜也会见了国泰集团行政总裁林绍波一行。,真钱炸金花手机版,葡京登入网投,满贯捕鱼无限金币和钻石。

时事3：银河国际手机客户端

12月23日,甘肃广河多领域同心为教育“添薪”,曾文莉认为，在职业选手商业价值充分释放后，其成功效应才会吸引更多的人群尤其是青少年从事网球运动，而这是中国网球经济发展的根基。,最大的正规赌场,官方认证的彩票平台,完美体育怎么样。

12月23日,医保卡变“购物卡”，威胁你我“救命钱”,以西安咸阳机场为例，扩建后拥有4座航站楼，航站楼面积高居国内前5。但西安咸阳机场去年旅客吞吐量排在全国第11位，西安去年GDP仅排在全国第21位。,体育在线投注网,红树林娱乐城,3d图迷总汇。

时事4：wns888app

12月23日,粤港澳自然教育论坛落幕凝聚推进生态文明共识,值得一提的是，三座机场都在本轮扩建中新修了跑道，兰州、乌鲁木齐因此成为国内为数不多的三跑道机场，西安更是拥有了四条跑道。,AG官方网站线上注册客户端,舟山星空棋牌,真钱打牌游戏排行榜。

12月23日,两岸专家学者厦门交流施琅收复台湾历史功绩与民间信仰,8月28日上午，中国煤矿文工团召开干部大会，宣布文工团领导任命决定。经文化和旅游部研究决定，任命靳东为中国煤矿文工团（中国安全生产艺术团）团长。,百看娱乐网,乐动体育网址入口,888真人官网是多少。

【韩媒：尹锡悦称是为了“炸鸡”宣布戒严】

【外交部：美方“以武助独”只会引火烧身，“以台制华”绝对不会得逞】

责编：贺连升

审核：吴超

责编：聂云梅