搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

蚂蚁集团如何让机器学会按照你的话改视频

2025-12-27 11:16:39
来源:

猫眼电影

作者:

周柏春

手机查看

  猫眼电影记者 宋文便 报道首次登录送91元红包

这是一个关于人工智能如何学会"听话"的故事。想象你正在看一部视频,突然想到:"要是能把这个场景变成日本动漫风格就好了"或者"能不能把这只黑狗换成白狐狸?"在过去,这样的想法只能停留在脑子里,因为实现它需要专业的视频编辑师花费数小时的工作。但现在,一个由蚂蚁集团、香港科技大学、浙江大学和东北大学的研究团队开发的新系统正在改变这一切。

这项研究由Qingyan Bai、Qiuyu Wang、Hao Ouyang等多位研究者共同完成,成果发表于2025年12月的arXiv预印本平台(论文编号:arXiv:2510.15742v2)。研究团队给他们的系统起了个有趣的名字——Ditto,这个词在英文里有"完全相同"的意思,恰好反映了这个系统的核心目标:让生成的视频完全符合你的文字指令。

长期以来,虽然AI在静止图片的编辑上已经做得相当不错,但视频编辑一直是个难题。这不仅仅是因为视频比图片复杂,更关键的是一个根本性的障碍:没有足够的高质量训练数据。你可以把这个问题想象成教一个学生学习某项技能——如果你只有几本教科书,学生很难真正掌握这项技能;但如果你有一百万个精心设计的练习题和答案,学生就能学得又快又好。

研究团队意识到,要让AI学会按照文字指令编辑视频,首先需要解决这个数据荒漠的问题。他们投入了超过12000个GPU工作日(相当于一台高性能计算机连续工作12000天),最终创造了一个名叫Ditto-1M的数据集——包含超过一百万个视频编辑样本。这个数据集就像一所超大规模的"视频编辑学校",里面有各种各样的编辑任务和对应的文字指令。

基于这个庞大的数据集,他们训练了一个名叫Editto的视频编辑模型,这个模型在多项测试中都超越了现有的所有竞争对手。更重要的是,他们还开源了数据集、模型和代码,这意味着全世界的研究者都可以在他们的基础上继续创新。

为什么这项研究如此重要呢?因为它触及了一个更深层的问题:在AI时代,数据就是新的石油。一个好的数据集可以推动整个领域的进步。Ditto-1M不仅仅是一个数据集,它代表了一种全新的思路——如何高效地、大规模地生成高质量的AI训练数据。

一、视频编辑为什么这么难?

要理解这项研究的突破之处,我们首先需要明白为什么视频编辑比图片编辑难得多。

当你编辑一张静止的照片时,你只需要改变这一张图片。但视频不同,它是一连串快速播放的图片。如果你想改变视频中的某样东西,比如改变一个人穿的衣服颜色,你不能只改变第一帧,因为那样的话,当视频播放时,这个人的衣服颜色会在几帧内突然变化,看起来非常不自然。你需要在视频的每一帧中都做出一致的改变,同时还要确保整个过程看起来平滑自然,就像这个改变真的发生过一样。

这就像是在修改一部电影。如果你想改变演员穿的衣服,你不能只改变一个镜头,你需要确保在整部电影中,这个演员穿的都是新衣服,而且改变要看起来自然,就像他一开始就穿的是这件衣服一样。

除了这个"时间一致性"的问题,还有另一个挑战。视频中的物体在运动,背景也在变化。当你编辑视频时,需要理解这些运动,并确保你的编辑随着运动而变化。比如,如果你想给一个移动的球换个颜色,你不能只是简单地把所有红色像素都变成蓝色,因为这样会改变背景中可能也有的红色物体。你需要理解哪个红色物体是球,然后只改变它。

正因为这些复杂性,过去的视频编辑AI系统要么质量很低,要么速度很慢。有些系统需要对每个视频单独进行优化,这就像是为每个学生单独写一套教材,效率极低。有些系统虽然速度快,但生成的视频质量不好,充满了闪烁和不自然的地方。

二、数据荒漠:为什么没有足够的训练数据?

现在我们来谈谈为什么数据这么稀缺。

对于图片编辑,研究者有个聪明的办法。他们可以用大型语言模型(比如GPT)自动生成编辑指令,然后用文本到图片的AI模型(比如Stable Diffusion)生成对应的编辑结果。这样就可以自动创建大量的训练数据,不需要人工标注。这个方法叫做"合成数据生成",已经被成功应用在图片编辑领域。

但这个方法在视频上就不那么有效了。虽然理论上你可以用同样的方法生成视频编辑数据,但实际上有两个大问题。第一,生成高质量视频需要大量的计算资源,成本非常高。第二,即使你生成了视频,质量往往也不理想——可能充满了闪烁、不连贯的地方,或者不能准确地遵循编辑指令。

这就像是你想要教一个学生,但你没有好的教材。你可以快速地写出很多教材,但质量很差;或者你可以精心编写高质量的教材,但这样做太慢了,成本太高。这正是视频编辑领域面临的困境。

三、Ditto的巧妙解决方案:三个关键突破

研究团队提出了一个优雅的解决方案,它有三个核心部分,就像一个精心设计的食谱,每个步骤都相互配合。

第一个突破:借用图片编辑的力量

团队的第一个想法是:既然图片编辑已经做得很好了,为什么不利用这一点呢?他们的做法是这样的:对于每个要编辑的视频,首先从视频中选出一个关键帧(就是最重要的一帧)。然后,他们用一个先进的图片编辑工具(Qwen-Image)来编辑这一帧,根据用户的文字指令。这样就得到了一个"目标图片"——这是编辑后应该是什么样子的参考。

接下来,他们用一个特殊的视频生成模型(叫做VACE的"上下文视频生成器")来生成整个视频。这个模型会看着这个编辑后的参考帧,然后生成一个完整的视频,使得视频中的每一帧都符合这个参考帧的风格和内容。

这个方法的妙处在于,它把一个难的问题(直接从文字指令生成视频)分解成两个相对容易的问题(用文字指令编辑图片,然后用图片指导视频生成)。这就像是在做一道复杂的菜肴时,先准备好所有的食材和调味料,然后按照步骤一步步来,而不是试图一次性完成所有工作。

但这还不够。为了确保生成的视频在空间和时间上都是一致的,团队还加入了另一个信息源:深度图。深度图是一种特殊的图像,它记录了视频中每个像素到摄像机的距离。通过这个深度信息,模型可以理解视频的三维结构和物体的运动,从而生成更加自然和一致的视频。

第二个突破:解决成本和质量的矛盾

现在我们来谈第二个挑战。高质量的视频生成需要大量的计算资源。研究团队发现,用最好的模型生成一个视频样本需要大约50分钟的GPU时间。如果要生成一百万个样本,这将是一个天文数字。

他们的解决方案是使用"模型蒸馏"和"量化"这两种技术。简单来说,模型蒸馏就像是把一个复杂的食谱简化成一个更简单的版本,但仍然能做出好吃的菜。量化则是一种压缩技术,可以减少模型占用的内存和计算量。通过这两种技术的结合,他们把生成一个视频样本所需的时间从50分钟减少到了大约10分钟,节省了80%的计算成本,同时还保持了视频的质量。

但这还不是全部。他们还加入了一个"时间增强器",这是一个专门用来改善视频时间一致性的工具。这就像是在做菜时加入了一个特殊的调料,能够让整道菜的味道更加协调。通过这个增强器,即使使用了更快的生成模型,生成的视频仍然看起来很自然,没有闪烁或不连贯的地方。

第三个突破:自动化的质量控制

现在我们来到了第三个关键部分:如何确保生成的数据质量足够好?

如果要人工检查一百万个视频样本,这将需要一个巨大的团队花费数年的时间。所以团队想到了一个聪明的办法:用另一个AI来检查AI生成的数据。

具体来说,他们使用了一个视觉语言模型(VLM)——这是一种能够理解图像和文字的AI——来自动检查每个生成的视频样本。这个模型会检查四个方面:首先,编辑是否准确地遵循了文字指令;其次,编辑后的视频是否保留了原始视频的内容和运动;第三,视频的视觉质量是否足够好,没有明显的扭曲或伪影;最后,视频的内容是否安全和合适,不包含暴力、色情或其他不当内容。

不符合这些标准的样本会被自动删除。这就像是一个质量检查员在传送带上工作,自动筛选出不合格的产品。

除了这个过滤过程,团队还使用了一个特殊的"去噪增强器"来进一步改善视频质量。这个工具会对生成的视频进行微调,去除细微的伪影,增强纹理细节,但不会改变视频的语义内容。这就像是在一幅画完成后进行最后的润色,使其看起来更加精美。

四、Ditto-1M数据集:一百万个视频编辑的故事

通过上述三个突破,研究团队最终创造了Ditto-1M数据集。这个数据集是如何构建的呢?

首先,他们从一个叫做Pexels的网站收集了超过20万个高质量视频。这些都是专业级别的视频,不是从网络上随意爬取的,所以质量相对较高。然后,他们对这些视频进行了严格的筛选。他们去除了重复的视频,确保数据集中的每个视频都是独一无二的。他们还去除了那些没有太多运动的视频,比如固定摄像机拍摄的监控录像或静止的风景照片,因为这些视频对于学习视频编辑来说价值不大。

接下来,对于每个保留下来的视频,他们使用一个强大的视觉语言模型(Qwen2.5 VL)来自动生成编辑指令。这个过程分为两步。首先,模型会生成一个详细的视频描述,说明视频中有什么、有哪些人物、什么样的场景。然后,基于这个描述,模型会生成一个创意的编辑指令,告诉系统应该如何改变这个视频。这些指令涵盖了各种各样的编辑任务,从全局的风格变换(比如改变整个视频的艺术风格)到局部的对象修改(比如替换或移除特定的物体)。

最终的Ditto-1M数据集包含了大约一百万个视频编辑样本。其中,大约70万个涉及全局编辑,比如改变视频的整体风格、改变环境或背景。另外30万个涉及局部编辑,比如替换、添加或移除特定的对象。每个视频的分辨率是1280x720,包含101帧,以每秒20帧的速度播放。

这个数据集的质量远远超过了之前的任何视频编辑数据集。研究团队强烈建议有兴趣的人查看他们提供的视频样本,以直观地感受这个数据集的质量。

五、Editto模型:从看图到听话

现在我们来谈谈如何用这个数据集来训练一个实际可用的视频编辑模型。

这里有一个有趣的问题。数据集是怎样生成的呢?通过向模型提供三样东西:文字指令、编辑后的参考图像和深度图。模型看着这三样东西,然后生成编辑后的视频。但在实际使用中,用户只想提供文字指令,不想提供参考图像。这就像是在教一个学生时,你先给他看答案,让他学会如何做题,然后在考试时,你不再给他答案,他需要自己做出来。

为了解决这个问题,研究团队提出了一个叫做"模态课程学习"的训练策略。这个策略的核心思想是:在训练的早期,模型既看到文字指令,也看到参考图像。随着训练的进行,他们逐渐减少提供参考图像的频率,最终完全不提供参考图像。这样,模型就被迫学会从纯文字指令中理解用户的意图,而不是依赖参考图像。

这个过程就像是教一个孩子骑自行车。一开始,你扶着自行车,孩子可以专注于学习平衡。然后,你逐渐松开手,让孩子自己保持平衡。最后,你完全放开,孩子就可以独立骑行了。

在这个训练过程中,他们使用了一种叫做"流匹配"的技术。简单来说,这是一种现代的生成模型训练方法,它比传统的扩散模型更高效。他们在64个GPU上训练了大约16000步,使用AdamW优化器,学习率为1e-4。为了保持原始模型的强大生成能力,他们只微调了模型中的某些部分(具体来说,是上下文块中的线性投影层),而冻结了大部分预训练的参数。

六、成果展示:Editto如何击败竞争对手

当研究团队用Editto模型进行测试时,结果令人印象深刻。

他们用几种不同的方法来评估模型的性能。首先是自动评估指标。他们使用了三个指标来衡量模型的表现。第一个叫做CLIP-T,它衡量的是生成的视频有多好地遵循了文字指令。第二个叫做CLIP-F,它衡量的是视频的时间一致性——也就是说,相邻的帧有多相似,这反映了视频看起来有多平滑自然。第三个叫做VLM评分,这是用另一个AI模型来评估编辑的有效性、语义保留程度和整体美学质量。

在这些自动评估指标上,Editto都显著超越了所有的竞争对手。具体来说,在CLIP-T上,Editto得到了25.54分,而之前最好的方法(InsViE)只得到了23.56分。在CLIP-F上,Editto得到了99.03分,略高于InsViE的98.78分。在VLM评分上,Editto得到了8.10分,而InsViE只得到了7.35分。

但数字可能不够直观。研究团队还进行了人工评估,邀请了1000名研究生和研究人员来评估不同模型生成的视频。评估者被要求评估三个方面:编辑的准确性(模型是否准确地遵循了指令)、时间一致性(视频看起来有多平滑自然)和整体质量。

在这个人工评估中,Editto也远远领先。在编辑准确性上,Editto得到了3.85分(满分5分),而之前最好的方法InsViE只得到了2.28分。在时间一致性上,Editto得到了3.76分,而InsViE得到了2.30分。在整体质量上,Editto得到了3.86分,而InsViE得到了2.36分。

这些数字背后的意义是什么呢?这意味着,当人类评估者看着Editto生成的视频时,他们认为这些视频不仅更好地遵循了指令,而且看起来更加自然、更加美观。

七、视觉对比:看看Editto能做什么

除了数字,研究团队还展示了一些具体的例子,让我们看看Editto实际上能做什么。

在一个例子中,用户给出的指令是"用像素艺术风格渲染"。Editto生成的视频成功地将原始视频转换成了像素艺术风格,看起来就像是一个复古的电子游戏。而竞争对手的模型生成的视频要么模糊不清,要么风格不够明显。

在另一个例子中,指令是"把男人的衣服换成黑色西装"。Editto精确地改变了男人衣服的颜色,同时保持了他的身份和背景的完整性。这对于局部编辑来说是特别困难的,因为模型需要理解哪个物体是衣服,然后只改变那个物体,而不影响其他的东西。竞争对手的模型在这个任务上表现得远不如Editto。

还有一个特别有趣的例子。研究团队展示了Editto的"合成到真实"的能力。他们用Editto来做一个反向的任务:把数据集中的风格化视频转换回原始的真实视频。这表明,数据集中包含的信息非常丰富,足以让模型学会在不同的视觉风格之间进行转换。

八、消融研究:每个部分都很重要

为了确保他们提出的每个部分都是必要的,研究团队进行了"消融研究"。这就像是在做一道菜时,逐个去掉某些食材,看看菜的味道会怎样变化。

首先,他们测试了不同数据量对模型性能的影响。他们分别用60000、120000、250000和500000个样本来训练模型,然后看模型的性能如何变化。结果很清楚:随着训练数据的增加,模型的性能持续改善。这证实了他们的直觉——更多的高质量数据确实能帮助模型学得更好。

其次,他们测试了模态课程学习策略的重要性。他们比较了使用模态课程学习和不使用它的模型。结果显示,没有模态课程学习的模型往往无法完全理解指令的语义含义,生成的视频质量明显更差。这证明了模态课程学习策略对于桥接视觉条件和文字指令之间的差距是至关重要的。

九、Editto vs 数据生成器:训练的力量

还有一个有趣的对比。研究团队比较了他们训练的Editto模型和用来生成数据的原始生成器的性能。

原始的数据生成器(VACE)是一个强大的模型,它能够在给定参考图像和深度图的情况下生成高质量的视频。但当面对一些新的、在训练数据中没有出现过的内容时,它的表现就不那么好了。比如,当被要求生成一个机器人手臂或铅笔素描的视频时,原始生成器就会失败。

但经过在Ditto-1M上训练的Editto模型就能处理这些新的、从未见过的内容。这说明了什么呢?这说明,通过在大规模、高质量的数据集上进行训练,模型能够学到更加通用和灵活的编辑能力,而不仅仅是复制训练数据中的模式。

十、这一切对我们意味着什么?

现在让我们回到开始的问题:为什么这项研究很重要?

首先,从技术的角度来看,这项研究解决了一个长期存在的问题:如何高效地生成大规模的高质量视频编辑训练数据。他们提出的方法——结合图片编辑的力量、使用蒸馏和量化来降低成本、用自动化的质量控制来确保数据质量——可以被应用到其他类似的问题上。

其次,从实际应用的角度来看,Editto模型代表了视频编辑技术的一个重大进步。现在,任何人都可以用简单的文字指令来编辑视频,而不需要学习复杂的视频编辑软件。这可能会改变内容创作的方式。想象一下,一个社交媒体创作者可以快速地生成多个视频变体来测试哪个效果最好;一个营销团队可以快速地为不同的市场创建本地化的视频版本;一个教育工作者可以快速地创建教学视频。

第三,从开源的角度来看,研究团队决定开源数据集、模型和代码,这意味着全世界的研究者都可以在他们的基础上继续创新。这可能会加速整个领域的发展。

但这项研究也提出了一些值得思考的问题。随着AI生成视频的质量越来越好,我们如何确保这些技术被用于积极的目的,而不是被用来创建虚假信息或欺骗性的内容呢?这是一个社会和伦理层面的问题,需要整个社会来思考和解决。

总的来说,Ditto和Editto代表了AI在创意工具领域的一个重要进步。它们展示了如何通过巧妙的系统设计、大规模的数据生成和智能的模型训练,来解决看似不可能的问题。在未来,我们可能会看到更多这样的工具,让创意工作变得更加民主化和可及。

Q1:Ditto-1M数据集包含多少个视频样本,这些样本是怎样生成的?

A:Ditto-1M包含超过一百万个高质量的视频编辑样本。这些样本是通过一个三阶段的管道自动生成的:首先从Pexels网站收集20多万个专业级视频并进行筛选,然后用图片编辑工具和视频生成模型生成编辑版本,最后通过VLM自动过滤和去噪增强来确保质量。整个过程耗费了超过12000个GPU工作日。

Q2:Editto模型与之前的视频编辑方法相比有什么优势?

A:Editto在多个方面都显著超越了竞争对手。在自动评估指标上,它在指令遵循度、时间一致性和整体质量上都得分最高。在人工评估中,评估者认为Editto生成的视频在编辑准确性、时间一致性和整体质量上都远优于之前最好的方法InsViE,得分几乎是其两倍。

Q3:模态课程学习策略是什么,为什么它对Editto的训练很重要?

A:模态课程学习是一种训练策略,在训练初期同时提供文字指令和参考图像,然后逐步减少参考图像的提供频率,最终完全不提供参考图像。这个策略很重要,因为它让模型能够从依赖视觉参考逐步过渡到仅依赖文字指令,从而学会理解和执行纯文本的编辑指令。

 时事1:巴黎人手机版赌场

  12月27日,亚太和平博物馆让亚洲二战历史“被看见”,目前,全球已建成最长的海底隧道是连接英国和法国的英吉利海峡隧道。英吉利海峡隧道由三条长51公里的平行隧洞组成,总长度153公里,其中海底段的隧洞长度为3×38公里。经过长期勘察和谈判,1986年英法两国签署了《坎特布利条约》,1987年正式破土动工,历时八年建成通车。英吉利海峡隧道大大方便了英法两国之间的交通联系,每年通过隧道的旅客人数达到了1800万人,货运达到了800万吨。,买球网站。

  12月27日,天天学习|情暖冬日,马斯克突然来华引关注,英媒:意在推动特斯拉旗下FSD系统在华落地(环球网),BET9九州登陆官方,永利体育体育平台,视讯游戏直营。

 时事2:天博平台app入口

  12月27日,香港消防处:感谢内地驰援 下一步工作重点转向火警调查,唐家成又称,与国际交易所同行相比,港交所的股票业务对收入贡献比较高,意味多元化发展的空间还很大,还有很多可大力开拓的新业务,但开拓新业务的同时一定要守住股市优势。,英国威廉希尔官方网址,兴化麻将,博鱼注册送18。

  12月27日,报告:明年或落地更多增量政策 加速楼市“止跌回稳”,“中国+中亚五国”合作机制从外长定期会晤机制起步。2020年7月,“中国+中亚五国”首次外长会晤通过视频方式举行。,现金网,真人电玩捕鱼,威斯尼人线上官网。

 时事3:杏悦

  12月27日,雄安迎来今冬首场降雪,为何哈尔滨遇到降雨概率也这么高?6月正是东北冷涡活跃的时期,东北、华北午后多骤雨,雨通常来得急去得快,雨量也多为小到中雨。像今年就是如此,高考期间有冷涡活动,东北地区将有大范围降雨,多地还可能有雷雨天气。,yabo手机版,天博APP官网,黄金会员。

  12月27日,宁夏银川召开庆祝中国民主促进会成立80周年大会,国家体育总局体育文化与体育宣传发展战略研究中心高端智库骨干专家、广州体育学院教授曾文莉告诉《环球时报》记者,体育具有较强的杠杆效应,以体育赛事表演为杠杆,能撬动城市基建、旅游、文化等,激活体育消费热情,推动体育产业能级提升,而这个杠杆的原动力主要是运动员尤其是明星运动员。,在手机上赌博,足球报电子版,最新扎金花。

 时事4:诺亚体育官网

  12月27日,《大运河随想》古琴专场音乐会在京上演,在该观点中,还提出了对“超级周期”的宏观判断。其认为,人生发财往往依赖康波周期:2006年前后,中国经济高速增长推动铜价上涨四至五倍;2021年前后,新能源汽车产业爆发带动锂价上涨约20倍。基于此,其提出疑问——由储能与算力共同驱动的有色金属超级周期,是否在2025年仍处于起点阶段,而真正的主升浪或将出现在2026年。,威尼斯人轮盘唯一指定网址,AG入口登录,开元棋脾558cc官网。

  12月27日,四川省委经济工作会议部署六项重点任务,新华保险积极响应国家发展数字金融、普惠金融的号召,依托“空中柜面”项目,将消费者权益保护与服务便捷性深度融合,通过数字化转型为客户带来高效、安全、有温度的保单服务新体验。这一创新举措赢得了市场认可,成功获评“2025金柿奖·中国保险消费者权益保护样本”。,188bet注册彩金,bet365在线投,优德投注登录。

责编:王云为

审核:克里斯蒂亚诺-罗纳尔多

责编:丁海春

相关推荐 换一换