猫眼电影
猫眼电影记者 廖贻东 报道首次登录送91元红包
这是一项由中国科学院大学、阿里巴巴高德地图事业部、中国科学院自动化研究所以及清华大学、东南大学的研究团队共同完成的突破性研究。论文由吴美琪、朱家树、冯晓坤、陈楚彬、朱晨等多位研究者撰写,已发表在2025年10月的学术预印本平台上,论文编号为arXiv:2510.14847v2。
一、为什么AI总是在想象力上失手
你有没有试过给AI描述一个奇异的场景,比如"一只骆驼在沙漠里打包行李"或者"一只熊在草地上操控遥控器"?如果你试过,你可能会发现AI生成的视频往往显得生硬、不自然,甚至完全无法理解你的意思。这不是因为AI不够聪明,而是因为它遇到了一个根本性的问题:它从未见过这样的场景。
现在的视频生成模型在处理日常、真实的场景时表现得相当不错。你让它生成一个"人在沙滩上走路"的视频,它可能做得很好。但当你要求它生成一些想象力十足的、超现实的场景时,效果就会急剧下降。这背后的原因很有意思——这些奇异场景涉及的概念之间距离很远,它们在真实世界中几乎不会同时出现。
想象你在学习一门新语言。如果你学的是"苹果"和"红色"这样经常一起出现的词汇,学起来很容易。但如果要你学"紫色的数学"这样的组合,就会困难得多,因为这两个概念在现实中几乎没有关联。AI也是这样。它的训练数据主要来自真实世界的视频,而真实世界中,骆驼就是骆驼,它们走路、吃草,很少去"打包行李"。当AI被要求生成这样的场景时,它就陷入了困境。
二、ImagerySearch:让AI学会做白日梦
阿里和中科院的研究团队提出了一个巧妙的解决方案,叫做ImagerySearch。这个方法的灵感来自一个有趣的心理学理论——人类在想象奇异场景时,会花更多的时间和精力来构建心理意象。换句话说,当你想象"一只熊操控遥控器"时,你的大脑会比想象"一个人走路"时更加努力地工作。
ImagerySearch就是按照这个原理来设计的。它包含两个核心部分,像是两个相互配合的工具。第一个工具叫做"语义距离感知的动态搜索空间",简单来说就是让AI根据你描述的场景有多"奇异"来调整自己的工作方式。如果你描述的是一个很常见的场景,AI就可以快速生成;如果你描述的是一个非常奇异的场景,AI就会放慢脚步,花更多时间和计算资源来探索各种可能性。
这就像你在做一道菜。如果是炒青菜这样的简单菜肴,你可以快速完成。但如果要做一道从未见过的创意菜肴,你就需要更多时间来尝试不同的配料和烹饪方法。AI也是这样——对于常见的场景,它可以直接套用已知的模式;对于奇异的场景,它需要更多的"尝试"。
第二个工具叫做"自适应意象奖励"。这是一个评分系统,用来判断AI生成的视频有多好。但这个评分系统不是固定的,它会根据你描述的场景的复杂程度来调整自己的评分标准。对于简单场景,它会严格要求视频的美观度;对于复杂场景,它会更加关注视频是否准确理解了你的描述。这就像一个老师在改卷子,对于简单题目要求高,对于难题只要学生理解了核心概念就给分。
三、如何衡量AI的想象力:LDT-Bench的诞生
但问题来了——如果我们要评估AI在想象力上的进步,用什么标准呢?现有的评估方法都是针对真实场景设计的,对于奇异场景就不太适用了。研究团队意识到这一点,决定创建一个全新的评估基准,名叫LDT-Bench。
LDT-Bench的构建过程相当有趣。研究团队首先从大规模的图像和视频数据库中提取了物体和动作。他们从ImageNet-1K中获取了1938种物体(从骆驼到遥控器,应有尽有),从Kinetics-600等视频数据库中获取了901种动作(从走路到打包,五花八门)。然后,他们用一个巧妙的方法来找出那些"最不相关"的配对。
想象你有一张巨大的地图,上面标记了所有物体和动作的位置。距离越远的两个点,就代表它们在现实世界中越不可能同时出现。研究团队就是按照这个逻辑,找出了距离最远的配对,比如"骆驼打包行李"或"熊操控遥控器"。最终,他们构建了一个包含2839个提示的数据集,涵盖了各种奇异的场景组合。
但仅有提示还不够,还需要一套评估方法。研究团队设计了一个叫做ImageryQA的评估框架,包含三个部分。第一部分叫ElementQA,它检查视频中是否出现了提示中提到的物体和动作。比如,如果提示是"熊操控遥控器",它就会问"视频中出现了熊吗?""熊在操控遥控器吗?"第二部分叫AlignQA,它评估视频的视觉质量和美学效果。第三部分叫AnomalyQA,它检查视频中是否出现了不自然的现象,比如物体突然消失或运动违反物理规律。
这三部分评估就像一个全面的体检。ElementQA检查你是否理解了医生的指示,AlignQA检查你的整体健康状况,AnomalyQA检查是否有任何异常情况。
四、ImagerySearch的工作原理:一场精心编排的舞蹈
现在让我们深入了解ImagerySearch具体是如何工作的。为了理解这一点,我们需要先了解视频生成的基本原理。
现代的视频生成模型使用一种叫做扩散的技术。简单来说,这就像是在倒放一个视频。在正常的视频中,你看到的是从模糊到清晰的过程。但在扩散模型中,过程是反向的——模型从完全的噪声开始,逐步去除噪声,最终生成一个清晰的视频。这个过程分为很多步骤,通常需要几十甚至几百步才能完成。
ImagerySearch在这个过程中插入了一些"检查点"。在这些检查点处,模型会生成几个不同的候选视频,然后用评分系统给它们打分,最后只保留最好的那些,继续进行后续的去噪过程。这就像是在烹饪一道复杂的菜肴时,每隔一段时间就尝一下味道,如果不对就调整调料,然后继续烹饪。
但这里有个聪明的地方——模型不是在每一步都做这样的检查,而是只在特定的几个关键步骤做检查。研究团队通过分析发现,相邻的去噪步骤对视频的改变很小,只有在某些特定的步骤才会产生显著的变化。所以,他们选择了四个关键的检查点(第5、20、30、45步),这样既能保证质量,又不会浪费太多的计算资源。
现在让我们回到ImagerySearch的两个核心部分。第一部分——语义距离感知的动态搜索空间——的工作方式是这样的:首先,模型会计算你的提示中各个概念之间的"距离"。这个距离是通过一个文本编码器(比如T5或CLIP)来计算的。编码器会把每个词转换成一个数字向量,然后计算向量之间的距离。距离越大,说明这两个概念在现实世界中越不相关。
一旦计算出了这个距离,模型就会根据距离来调整搜索空间的大小。具体的公式很简单:候选视频的数量等于基础数量乘以一个与语义距离成正比的因子。换句话说,如果你的提示涉及的概念距离很远,模型就会生成更多的候选视频;如果距离很近,模型就会生成较少的候选视频。这样做的好处是,对于简单的任务,模型可以快速完成;对于复杂的任务,模型有更多的机会找到好的解决方案。
第二部分——自适应意象奖励——是一个更复杂的评分系统。它综合考虑了多个因素,包括视频的运动质量、文本与视频的对齐程度、视觉质量等。但关键的是,这些因素的权重不是固定的,而是会根据语义距离动态调整。对于语义距离大的提示,模型会更加强调文本对齐的重要性;对于语义距离小的提示,模型会更加关注视觉质量。
这就像是一个评委在评判艺术作品。对于一个传统的风景画,评委会严格要求色彩的准确性和构图的美感。但对于一个超现实主义作品,评委就会更加关注艺术家是否成功传达了他的创意意图,而不是过分强调技术细节。
五、实验结果:数字背后的故事
研究团队进行了大量的实验来验证ImagerySearch的有效性。他们在两个主要的数据集上进行了测试:自己创建的LDT-Bench和现有的VBench。
在LDT-Bench上,结果相当令人印象深刻。基础模型Wan2.1的总体评分是48.28分。当应用了ImagerySearch后,评分提升到了57.11分,提升幅度达到了8.83个百分点。这是一个相当显著的改进。更有趣的是,与其他最先进的测试时间缩放方法(比如Video-T1和EvoSearch)相比,ImagerySearch也表现得更好。这说明ImagerySearch不仅有效,而且相比现有的方法有明显的优势。
在更细致的评估中,我们可以看到ImagerySearch在三个方面都有改进。在ElementQA上(检查物体和动作是否出现),从1.66分提升到2.01分。在AlignQA上(检查视觉质量),从31.62分提升到36.82分。在AnomalyQA上(检查异常现象),从15.00分提升到18.28分。这说明ImagerySearch在所有方面都有改进,不是某一个方面特别强,而是全面提升。
在VBench上的表现也很不错。VBench是一个更加全面的评估基准,包含了多个维度的评估,比如美学质量、背景一致性、动态程度等。在这个基准上,ImagerySearch的平均评分是83.48分,比基础模型Wan2.1的78.53分提高了4.95个百分点。更重要的是,ImagerySearch在动态程度和主体一致性这两个维度上表现特别突出,这正是处理奇异场景所需要的。
六、稳定性和可扩展性:ImagerySearch的隐藏优势
除了在评分上的提升,研究团队还发现了ImagerySearch的另外两个重要优势。
第一个优势是稳定性。当语义距离增加时(也就是说,提示变得越来越奇异),不同的模型的表现会出现很大的波动。基础模型Wan2.1的表现会随着语义距离的增加而急剧下降。其他的测试时间缩放方法也会出现明显的波动。但ImagerySearch的表现相对稳定,即使在面对最奇异的场景时,也能保持相对一致的质量。这就像是一个经验丰富的厨师,无论菜肴有多复杂,都能保持相对稳定的质量。
第二个优势是可扩展性。研究团队测试了当增加计算资源时,模型的表现如何变化。他们用一个叫做"函数评估次数"的指标来衡量计算量。结果显示,ImagerySearch的表现随着计算量的增加而持续改进,而其他方法的表现在增加到一定程度后就停止改进了。这说明ImagerySearch能更有效地利用额外的计算资源。
七、消融研究:每个部分都很重要
为了确保ImagerySearch的两个核心部分都是必要的,研究团队进行了消融研究。这就像是在做一道菜时,逐个移除一个配料,看看效果如何。
当只使用基础模型时,VBench的评分是78.53分。当添加语义距离感知的动态搜索空间时,评分提升到81.30分。当添加自适应意象奖励时,评分提升到82.11分。当两个部分都使用时,评分达到83.48分。这清楚地表明,两个部分都有贡献,而且它们的贡献是相加的,这说明它们是互补的。
研究团队还测试了使用固定搜索空间大小而不是动态调整的效果。结果显示,固定大小的搜索空间(无论是0.5倍还是0.9倍)的表现都不如动态调整的好。这进一步证实了动态调整的重要性。
八、与其他方法的比较:为什么ImagerySearch更胜一筹
研究团队还比较了ImagerySearch与其他几种搜索策略的表现,比如Best-of-N(简单地生成N个视频,然后选择最好的)和粒子采样(一种更复杂的采样方法)。结果显示,ImagerySearch的表现都更好。这说明,不仅是动态调整很重要,ImagerySearch采用的具体搜索策略也是经过精心设计的。
九、实际应用的启示
这项研究对于视频生成技术的实际应用有什么启示呢?首先,它表明了一个重要的事实:现有的视频生成模型在处理真实场景时表现很好,但在处理创意、奇异的场景时仍然有很大的改进空间。这对于那些希望使用AI来创作创意内容的人来说是个好消息——虽然现在还不完美,但通过更聪明的方法,我们可以显著改进。
其次,这项研究展示了一个有趣的方向:不一定要重新训练模型或收集更多的训练数据,只需要在推理时使用更聪明的策略,就可以显著改进性能。这对于那些无法访问大量训练数据或计算资源的人来说特别有价值。
第三,这项研究提出的LDT-Bench为未来的研究提供了一个有用的评估工具。现在,研究者可以用这个基准来测试他们的模型在处理创意场景时的能力,而不仅仅是在处理真实场景时的能力。
十、未来的可能性
虽然ImagerySearch已经取得了显著的成果,但研究团队也指出了未来的改进方向。他们计划探索更灵活的奖励机制,可能会考虑使用强化学习或其他高级技术来进一步优化奖励函数。他们也可能会考虑如何将这种方法扩展到其他类型的生成任务,比如图像生成或文本生成。
此外,随着视频生成模型本身的不断进步,ImagerySearch这样的推理时优化方法可能会变得越来越重要。因为即使模型本身变得更强大,处理创意任务的难度仍然会存在,而聪明的推理策略可以帮助模型更好地应对这些挑战。
十一、对AI创意能力的思考
这项研究触及了一个深层的问题:AI是否真的能够进行创意思考?ImagerySearch的成功表明,至少在某种程度上,AI可以通过更聪明的推理策略来模拟创意思考的过程。它不是通过理解创意的本质,而是通过更多地探索可能性空间,并更聪明地评估这些可能性。
这就像是一个作家在创作一部新颖的小说时,不是凭空想象,而是通过大量的阅读、思考和修改来逐步完善自己的作品。AI也可以通过类似的过程来生成创意内容,虽然底层的机制可能完全不同。
说到底,ImagerySearch的核心贡献在于它展示了一个重要的原则:有时候,解决问题的关键不在于拥有更多的知识或更强大的工具,而在于如何更聪明地使用现有的工具。这个原则不仅适用于AI,也适用于人类的许多活动。
Q1:ImagerySearch是什么,它为什么能帮助AI生成更好的创意视频?
A:ImagerySearch是一种在视频生成过程中使用的智能搜索策略。它根据你描述的场景有多"奇异"来动态调整AI的工作方式——对于常见场景快速处理,对于奇异场景则花更多时间和资源探索。它包含两个核心部分:一个根据概念距离调整搜索范围的系统,和一个根据场景复杂度调整评分标准的系统。这样AI就能更好地处理那些在现实中很少出现的创意场景。
Q2:LDT-Bench是什么,为什么需要创建这样一个新的评估基准?
A:LDT-Bench是一个专门用来评估AI在处理创意、奇异场景时能力的数据集和评估框架。它包含2839个提示,涵盖了各种不常见的物体和动作组合。现有的评估方法主要针对真实场景设计,对于创意场景就不太适用。LDT-Bench填补了这个空白,让研究者能够系统地测试和改进AI的创意能力。
Q3:ImagerySearch相比现有的视频生成方法有什么具体的优势?
A:ImagerySearch在多个方面都有优势。在LDT-Bench上,它比基础模型提升了8.83个百分点。与其他最先进的方法相比,它也表现更好。更重要的是,当场景变得越来越奇异时,ImagerySearch的表现相对稳定,而其他方法的表现会急剧下降。此外,ImagerySearch能更有效地利用额外的计算资源,当增加计算量时,它的表现会持续改进。
时事1:现金游艺导航下载
12月23日,11月份物价数据彰显经济韧性与潜力,“当年李娜一度手握13个国内外知名品牌代言,而郑钦文在奥运夺冠之前已有10个代言品牌。”纪宁认为,网球目前在中国的热度已今非昔比,李娜时代已奠定的中国网球经济的热度,在郑钦文夺冠后会被逐渐引爆。纪宁还表示,网球作为全球顶级的职业体育和商业体育项目,正逐步释放巨大的产业经济空间。,bet9手机下载。
12月23日,(同心抗战)台湾抗日志士罗福星孙女:当祖国领土被异族侵犯,作为中华民族应奋起反抗,青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程;甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚;西安和乌鲁木齐都表示,咸阳机场、天山机场的改扩建工程,能助力西安、乌鲁木齐打造“一带一路”核心枢纽。,手机买球APP下载,网络游戏斗地主,每天3元救济金斗地主。
时事2:棋牌斗牛二八杠
12月23日,郁达夫纪念馆在印尼棉兰开馆,今年36岁的李樟煜,已经在残疾人自行车项目征战多年。2012年伦敦残奥会,他第一次实现了残奥冠军梦。接下来,从里约到东京,再到巴黎,他带着梦想破风前行,每届残奥会都有金牌入账。据介绍,李樟煜获得的各类国际赛事奖牌已有50多枚。,沙巴体育滚球首页,乐动体育下载地址,芒果体育网页。
12月23日,浙江慈溪取暖器热销欧洲市场,新疆维吾尔自治区党委书记马兴瑞、自治区主席艾尔肯·吐尼亚孜也会见了国泰集团行政总裁林绍波一行。,真钱炸金花手机版,葡京登入网投,满贯捕鱼无限金币和钻石。
时事3:银河国际手机客户端
12月23日,甘肃广河多领域同心为教育“添薪”,曾文莉认为,在职业选手商业价值充分释放后,其成功效应才会吸引更多的人群尤其是青少年从事网球运动,而这是中国网球经济发展的根基。,最大的正规赌场,官方认证的彩票平台,完美体育怎么样。
12月23日,医保卡变“购物卡”,威胁你我“救命钱”,以西安咸阳机场为例,扩建后拥有4座航站楼,航站楼面积高居国内前5。但西安咸阳机场去年旅客吞吐量排在全国第11位,西安去年GDP仅排在全国第21位。,体育在线投注网,红树林娱乐城,3d图迷总汇。
时事4:wns888app
12月23日,粤港澳自然教育论坛落幕 凝聚推进生态文明共识,值得一提的是,三座机场都在本轮扩建中新修了跑道,兰州、乌鲁木齐因此成为国内为数不多的三跑道机场,西安更是拥有了四条跑道。,AG官方网站线上注册客户端,舟山星空棋牌,真钱打牌游戏排行榜。
12月23日,两岸专家学者厦门交流施琅收复台湾历史功绩与民间信仰,8月28日上午,中国煤矿文工团召开干部大会,宣布文工团领导任命决定。经文化和旅游部研究决定,任命靳东为中国煤矿文工团(中国安全生产艺术团)团长。,百看娱乐网,乐动体育网址入口,888真人官网是多少。
责编:贺连升
审核:吴超
责编:聂云梅












