ob游戏最新官网,一款汇聚潮流与创新的应用,带你领略科技与生活的完美融合

首页 >新闻 >社会新闻

蚂蚁集团如何让机器学会按照你的话改视频

2025-12-24 02:41:18

来源：

猫眼电影

作者：

郭皓

手机查看

　　猫眼电影记者俞速颖报道首次登录送91元红包

这是一个关于人工智能如何学会"听话"的故事。想象你正在看一部视频，突然想到："要是能把这个场景变成日本动漫风格就好了"或者"能不能把这只黑狗换成白狐狸？"在过去，这样的想法只能停留在脑子里，因为实现它需要专业的视频编辑师花费数小时的工作。但现在，一个由蚂蚁集团、香港科技大学、浙江大学和东北大学的研究团队开发的新系统正在改变这一切。

这项研究由Qingyan Bai、Qiuyu Wang、Hao Ouyang等多位研究者共同完成，成果发表于2025年12月的arXiv预印本平台（论文编号：arXiv:2510.15742v2）。研究团队给他们的系统起了个有趣的名字——Ditto，这个词在英文里有"完全相同"的意思，恰好反映了这个系统的核心目标：让生成的视频完全符合你的文字指令。

长期以来，虽然AI在静止图片的编辑上已经做得相当不错，但视频编辑一直是个难题。这不仅仅是因为视频比图片复杂，更关键的是一个根本性的障碍：没有足够的高质量训练数据。你可以把这个问题想象成教一个学生学习某项技能——如果你只有几本教科书，学生很难真正掌握这项技能；但如果你有一百万个精心设计的练习题和答案，学生就能学得又快又好。

研究团队意识到，要让AI学会按照文字指令编辑视频，首先需要解决这个数据荒漠的问题。他们投入了超过12000个GPU工作日（相当于一台高性能计算机连续工作12000天），最终创造了一个名叫Ditto-1M的数据集——包含超过一百万个视频编辑样本。这个数据集就像一所超大规模的"视频编辑学校"，里面有各种各样的编辑任务和对应的文字指令。

基于这个庞大的数据集，他们训练了一个名叫Editto的视频编辑模型，这个模型在多项测试中都超越了现有的所有竞争对手。更重要的是，他们还开源了数据集、模型和代码，这意味着全世界的研究者都可以在他们的基础上继续创新。

为什么这项研究如此重要呢？因为它触及了一个更深层的问题：在AI时代，数据就是新的石油。一个好的数据集可以推动整个领域的进步。Ditto-1M不仅仅是一个数据集，它代表了一种全新的思路——如何高效地、大规模地生成高质量的AI训练数据。

一、视频编辑为什么这么难？

要理解这项研究的突破之处，我们首先需要明白为什么视频编辑比图片编辑难得多。

当你编辑一张静止的照片时，你只需要改变这一张图片。但视频不同，它是一连串快速播放的图片。如果你想改变视频中的某样东西，比如改变一个人穿的衣服颜色，你不能只改变第一帧，因为那样的话，当视频播放时，这个人的衣服颜色会在几帧内突然变化，看起来非常不自然。你需要在视频的每一帧中都做出一致的改变，同时还要确保整个过程看起来平滑自然，就像这个改变真的发生过一样。

这就像是在修改一部电影。如果你想改变演员穿的衣服，你不能只改变一个镜头，你需要确保在整部电影中，这个演员穿的都是新衣服，而且改变要看起来自然，就像他一开始就穿的是这件衣服一样。

除了这个"时间一致性"的问题，还有另一个挑战。视频中的物体在运动，背景也在变化。当你编辑视频时，需要理解这些运动，并确保你的编辑随着运动而变化。比如，如果你想给一个移动的球换个颜色，你不能只是简单地把所有红色像素都变成蓝色，因为这样会改变背景中可能也有的红色物体。你需要理解哪个红色物体是球，然后只改变它。

正因为这些复杂性，过去的视频编辑AI系统要么质量很低，要么速度很慢。有些系统需要对每个视频单独进行优化，这就像是为每个学生单独写一套教材，效率极低。有些系统虽然速度快，但生成的视频质量不好，充满了闪烁和不自然的地方。

二、数据荒漠：为什么没有足够的训练数据？

现在我们来谈谈为什么数据这么稀缺。

对于图片编辑，研究者有个聪明的办法。他们可以用大型语言模型（比如GPT）自动生成编辑指令，然后用文本到图片的AI模型（比如Stable Diffusion）生成对应的编辑结果。这样就可以自动创建大量的训练数据，不需要人工标注。这个方法叫做"合成数据生成"，已经被成功应用在图片编辑领域。

但这个方法在视频上就不那么有效了。虽然理论上你可以用同样的方法生成视频编辑数据，但实际上有两个大问题。第一，生成高质量视频需要大量的计算资源，成本非常高。第二，即使你生成了视频，质量往往也不理想——可能充满了闪烁、不连贯的地方，或者不能准确地遵循编辑指令。

这就像是你想要教一个学生，但你没有好的教材。你可以快速地写出很多教材，但质量很差；或者你可以精心编写高质量的教材，但这样做太慢了，成本太高。这正是视频编辑领域面临的困境。

三、Ditto的巧妙解决方案：三个关键突破

研究团队提出了一个优雅的解决方案，它有三个核心部分，就像一个精心设计的食谱，每个步骤都相互配合。

第一个突破：借用图片编辑的力量

团队的第一个想法是：既然图片编辑已经做得很好了，为什么不利用这一点呢？他们的做法是这样的：对于每个要编辑的视频，首先从视频中选出一个关键帧（就是最重要的一帧）。然后，他们用一个先进的图片编辑工具（Qwen-Image）来编辑这一帧，根据用户的文字指令。这样就得到了一个"目标图片"——这是编辑后应该是什么样子的参考。

接下来，他们用一个特殊的视频生成模型（叫做VACE的"上下文视频生成器"）来生成整个视频。这个模型会看着这个编辑后的参考帧，然后生成一个完整的视频，使得视频中的每一帧都符合这个参考帧的风格和内容。

这个方法的妙处在于，它把一个难的问题（直接从文字指令生成视频）分解成两个相对容易的问题（用文字指令编辑图片，然后用图片指导视频生成）。这就像是在做一道复杂的菜肴时，先准备好所有的食材和调味料，然后按照步骤一步步来，而不是试图一次性完成所有工作。

但这还不够。为了确保生成的视频在空间和时间上都是一致的，团队还加入了另一个信息源：深度图。深度图是一种特殊的图像，它记录了视频中每个像素到摄像机的距离。通过这个深度信息，模型可以理解视频的三维结构和物体的运动，从而生成更加自然和一致的视频。

第二个突破：解决成本和质量的矛盾

现在我们来谈第二个挑战。高质量的视频生成需要大量的计算资源。研究团队发现，用最好的模型生成一个视频样本需要大约50分钟的GPU时间。如果要生成一百万个样本，这将是一个天文数字。

他们的解决方案是使用"模型蒸馏"和"量化"这两种技术。简单来说，模型蒸馏就像是把一个复杂的食谱简化成一个更简单的版本，但仍然能做出好吃的菜。量化则是一种压缩技术，可以减少模型占用的内存和计算量。通过这两种技术的结合，他们把生成一个视频样本所需的时间从50分钟减少到了大约10分钟，节省了80%的计算成本，同时还保持了视频的质量。

但这还不是全部。他们还加入了一个"时间增强器"，这是一个专门用来改善视频时间一致性的工具。这就像是在做菜时加入了一个特殊的调料，能够让整道菜的味道更加协调。通过这个增强器，即使使用了更快的生成模型，生成的视频仍然看起来很自然，没有闪烁或不连贯的地方。

第三个突破：自动化的质量控制

现在我们来到了第三个关键部分：如何确保生成的数据质量足够好？

如果要人工检查一百万个视频样本，这将需要一个巨大的团队花费数年的时间。所以团队想到了一个聪明的办法：用另一个AI来检查AI生成的数据。

具体来说，他们使用了一个视觉语言模型（VLM）——这是一种能够理解图像和文字的AI——来自动检查每个生成的视频样本。这个模型会检查四个方面：首先，编辑是否准确地遵循了文字指令；其次，编辑后的视频是否保留了原始视频的内容和运动；第三，视频的视觉质量是否足够好，没有明显的扭曲或伪影；最后，视频的内容是否安全和合适，不包含暴力、色情或其他不当内容。

不符合这些标准的样本会被自动删除。这就像是一个质量检查员在传送带上工作，自动筛选出不合格的产品。

除了这个过滤过程，团队还使用了一个特殊的"去噪增强器"来进一步改善视频质量。这个工具会对生成的视频进行微调，去除细微的伪影，增强纹理细节，但不会改变视频的语义内容。这就像是在一幅画完成后进行最后的润色，使其看起来更加精美。

四、Ditto-1M数据集：一百万个视频编辑的故事

通过上述三个突破，研究团队最终创造了Ditto-1M数据集。这个数据集是如何构建的呢？

首先，他们从一个叫做Pexels的网站收集了超过20万个高质量视频。这些都是专业级别的视频，不是从网络上随意爬取的，所以质量相对较高。然后，他们对这些视频进行了严格的筛选。他们去除了重复的视频，确保数据集中的每个视频都是独一无二的。他们还去除了那些没有太多运动的视频，比如固定摄像机拍摄的监控录像或静止的风景照片，因为这些视频对于学习视频编辑来说价值不大。

接下来，对于每个保留下来的视频，他们使用一个强大的视觉语言模型（Qwen2.5 VL）来自动生成编辑指令。这个过程分为两步。首先，模型会生成一个详细的视频描述，说明视频中有什么、有哪些人物、什么样的场景。然后，基于这个描述，模型会生成一个创意的编辑指令，告诉系统应该如何改变这个视频。这些指令涵盖了各种各样的编辑任务，从全局的风格变换（比如改变整个视频的艺术风格）到局部的对象修改（比如替换或移除特定的物体）。

最终的Ditto-1M数据集包含了大约一百万个视频编辑样本。其中，大约70万个涉及全局编辑，比如改变视频的整体风格、改变环境或背景。另外30万个涉及局部编辑，比如替换、添加或移除特定的对象。每个视频的分辨率是1280x720，包含101帧，以每秒20帧的速度播放。

这个数据集的质量远远超过了之前的任何视频编辑数据集。研究团队强烈建议有兴趣的人查看他们提供的视频样本，以直观地感受这个数据集的质量。

五、Editto模型：从看图到听话

现在我们来谈谈如何用这个数据集来训练一个实际可用的视频编辑模型。

这里有一个有趣的问题。数据集是怎样生成的呢？通过向模型提供三样东西：文字指令、编辑后的参考图像和深度图。模型看着这三样东西，然后生成编辑后的视频。但在实际使用中，用户只想提供文字指令，不想提供参考图像。这就像是在教一个学生时，你先给他看答案，让他学会如何做题，然后在考试时，你不再给他答案，他需要自己做出来。

为了解决这个问题，研究团队提出了一个叫做"模态课程学习"的训练策略。这个策略的核心思想是：在训练的早期，模型既看到文字指令，也看到参考图像。随着训练的进行，他们逐渐减少提供参考图像的频率，最终完全不提供参考图像。这样，模型就被迫学会从纯文字指令中理解用户的意图，而不是依赖参考图像。

这个过程就像是教一个孩子骑自行车。一开始，你扶着自行车，孩子可以专注于学习平衡。然后，你逐渐松开手，让孩子自己保持平衡。最后，你完全放开，孩子就可以独立骑行了。

在这个训练过程中，他们使用了一种叫做"流匹配"的技术。简单来说，这是一种现代的生成模型训练方法，它比传统的扩散模型更高效。他们在64个GPU上训练了大约16000步，使用AdamW优化器，学习率为1e-4。为了保持原始模型的强大生成能力，他们只微调了模型中的某些部分（具体来说，是上下文块中的线性投影层），而冻结了大部分预训练的参数。

六、成果展示：Editto如何击败竞争对手

当研究团队用Editto模型进行测试时，结果令人印象深刻。

他们用几种不同的方法来评估模型的性能。首先是自动评估指标。他们使用了三个指标来衡量模型的表现。第一个叫做CLIP-T，它衡量的是生成的视频有多好地遵循了文字指令。第二个叫做CLIP-F，它衡量的是视频的时间一致性——也就是说，相邻的帧有多相似，这反映了视频看起来有多平滑自然。第三个叫做VLM评分，这是用另一个AI模型来评估编辑的有效性、语义保留程度和整体美学质量。

在这些自动评估指标上，Editto都显著超越了所有的竞争对手。具体来说，在CLIP-T上，Editto得到了25.54分，而之前最好的方法（InsViE）只得到了23.56分。在CLIP-F上，Editto得到了99.03分，略高于InsViE的98.78分。在VLM评分上，Editto得到了8.10分，而InsViE只得到了7.35分。

但数字可能不够直观。研究团队还进行了人工评估，邀请了1000名研究生和研究人员来评估不同模型生成的视频。评估者被要求评估三个方面：编辑的准确性（模型是否准确地遵循了指令）、时间一致性（视频看起来有多平滑自然）和整体质量。

在这个人工评估中，Editto也远远领先。在编辑准确性上，Editto得到了3.85分（满分5分），而之前最好的方法InsViE只得到了2.28分。在时间一致性上，Editto得到了3.76分，而InsViE得到了2.30分。在整体质量上，Editto得到了3.86分，而InsViE得到了2.36分。

这些数字背后的意义是什么呢？这意味着，当人类评估者看着Editto生成的视频时，他们认为这些视频不仅更好地遵循了指令，而且看起来更加自然、更加美观。

七、视觉对比：看看Editto能做什么

除了数字，研究团队还展示了一些具体的例子，让我们看看Editto实际上能做什么。

在一个例子中，用户给出的指令是"用像素艺术风格渲染"。Editto生成的视频成功地将原始视频转换成了像素艺术风格，看起来就像是一个复古的电子游戏。而竞争对手的模型生成的视频要么模糊不清，要么风格不够明显。

在另一个例子中，指令是"把男人的衣服换成黑色西装"。Editto精确地改变了男人衣服的颜色，同时保持了他的身份和背景的完整性。这对于局部编辑来说是特别困难的，因为模型需要理解哪个物体是衣服，然后只改变那个物体，而不影响其他的东西。竞争对手的模型在这个任务上表现得远不如Editto。

还有一个特别有趣的例子。研究团队展示了Editto的"合成到真实"的能力。他们用Editto来做一个反向的任务：把数据集中的风格化视频转换回原始的真实视频。这表明，数据集中包含的信息非常丰富，足以让模型学会在不同的视觉风格之间进行转换。

八、消融研究：每个部分都很重要

为了确保他们提出的每个部分都是必要的，研究团队进行了"消融研究"。这就像是在做一道菜时，逐个去掉某些食材，看看菜的味道会怎样变化。

首先，他们测试了不同数据量对模型性能的影响。他们分别用60000、120000、250000和500000个样本来训练模型，然后看模型的性能如何变化。结果很清楚：随着训练数据的增加，模型的性能持续改善。这证实了他们的直觉——更多的高质量数据确实能帮助模型学得更好。

其次，他们测试了模态课程学习策略的重要性。他们比较了使用模态课程学习和不使用它的模型。结果显示，没有模态课程学习的模型往往无法完全理解指令的语义含义，生成的视频质量明显更差。这证明了模态课程学习策略对于桥接视觉条件和文字指令之间的差距是至关重要的。

九、Editto vs 数据生成器：训练的力量

还有一个有趣的对比。研究团队比较了他们训练的Editto模型和用来生成数据的原始生成器的性能。

原始的数据生成器（VACE）是一个强大的模型，它能够在给定参考图像和深度图的情况下生成高质量的视频。但当面对一些新的、在训练数据中没有出现过的内容时，它的表现就不那么好了。比如，当被要求生成一个机器人手臂或铅笔素描的视频时，原始生成器就会失败。

但经过在Ditto-1M上训练的Editto模型就能处理这些新的、从未见过的内容。这说明了什么呢？这说明，通过在大规模、高质量的数据集上进行训练，模型能够学到更加通用和灵活的编辑能力，而不仅仅是复制训练数据中的模式。

十、这一切对我们意味着什么？

现在让我们回到开始的问题：为什么这项研究很重要？

首先，从技术的角度来看，这项研究解决了一个长期存在的问题：如何高效地生成大规模的高质量视频编辑训练数据。他们提出的方法——结合图片编辑的力量、使用蒸馏和量化来降低成本、用自动化的质量控制来确保数据质量——可以被应用到其他类似的问题上。

其次，从实际应用的角度来看，Editto模型代表了视频编辑技术的一个重大进步。现在，任何人都可以用简单的文字指令来编辑视频，而不需要学习复杂的视频编辑软件。这可能会改变内容创作的方式。想象一下，一个社交媒体创作者可以快速地生成多个视频变体来测试哪个效果最好；一个营销团队可以快速地为不同的市场创建本地化的视频版本；一个教育工作者可以快速地创建教学视频。

第三，从开源的角度来看，研究团队决定开源数据集、模型和代码，这意味着全世界的研究者都可以在他们的基础上继续创新。这可能会加速整个领域的发展。

但这项研究也提出了一些值得思考的问题。随着AI生成视频的质量越来越好，我们如何确保这些技术被用于积极的目的，而不是被用来创建虚假信息或欺骗性的内容呢？这是一个社会和伦理层面的问题，需要整个社会来思考和解决。

总的来说，Ditto和Editto代表了AI在创意工具领域的一个重要进步。它们展示了如何通过巧妙的系统设计、大规模的数据生成和智能的模型训练，来解决看似不可能的问题。在未来，我们可能会看到更多这样的工具，让创意工作变得更加民主化和可及。

Q1：Ditto-1M数据集包含多少个视频样本，这些样本是怎样生成的？

A：Ditto-1M包含超过一百万个高质量的视频编辑样本。这些样本是通过一个三阶段的管道自动生成的：首先从Pexels网站收集20多万个专业级视频并进行筛选，然后用图片编辑工具和视频生成模型生成编辑版本，最后通过VLM自动过滤和去噪增强来确保质量。整个过程耗费了超过12000个GPU工作日。

Q2：Editto模型与之前的视频编辑方法相比有什么优势？

A：Editto在多个方面都显著超越了竞争对手。在自动评估指标上，它在指令遵循度、时间一致性和整体质量上都得分最高。在人工评估中，评估者认为Editto生成的视频在编辑准确性、时间一致性和整体质量上都远优于之前最好的方法InsViE，得分几乎是其两倍。

Q3：模态课程学习策略是什么，为什么它对Editto的训练很重要？

A：模态课程学习是一种训练策略，在训练初期同时提供文字指令和参考图像，然后逐步减少参考图像的提供频率，最终完全不提供参考图像。这个策略很重要，因为它让模型能够从依赖视觉参考逐步过渡到仅依赖文字指令，从而学会理解和执行纯文本的编辑指令。

时事1：澳门宝博会开户

12月24日,北京多项最新考古研究成果实证中华文明多元一体,这意味着目前国内在建的和已经建成的海底隧道，最长的均在20公里以内，与设计长度约在125公里的烟大海底隧道，相距甚远。,万博手机app登陆。

12月24日,广东龙门县：打造世界级森林温泉康养度假区,2024年以来，仅有25家IPO企业公告上会，其中，2家企业在上会之前被取消审核，实际上会企业23家。其中，上交所8家、深交所6家。,真金炸金花靠谱吗,高博注册,英雄联盟竞彩app。

时事2：必威官方网站首页

12月24日,海南海口往返越南胡志明市航线开通,欧盟中国商会调研显示，对大多中国车企而言，欧方加征10%以上关税即为高位区间，将对出口带来直接负面影响。当前的17.4%到38.1%的临时关税区间意味着严峻的市场准入障碍。不过，中国作为全球电动汽车产销第一大市场，国内市场销量远高于欧美市场销量的总和，对欧电动汽车出口仅占中国电动汽车产量的5%左右，且大多为欧美品牌。中国自主电动汽车品牌在欧洲的市场占有率也远低于欧洲本土企业。,亚博下载地址,最新澳门网上真人游戏,ManBetX网页版vip登录。

12月24日,烟台公安破获新型网络水军案借技术炒作车企负面牟利,拉长时间线来看，在内外部多重压力下，本世纪以来，佛山工业生产总值占全省比重走出“先升再降”的曲线——2002年至2009年，比重从12.50%攀升到17.15%，创下历史新高。但从2010年开始占比整体下滑，2021年回落至15.30%。,足球外围让0球是什么意思,bat365在线平台,多宝电子网投。

时事3：AG8亚洲游戏集团

12月24日,全国残特奥会广西代表团：以体育为桥，见证生命荣光,航天员李广苏：携带了两个毛绒玩具，这两个毛绒玩具是我女儿小时候的安抚玩偶，伴随着孩子出生以后到上幼儿园整个的成长经历。为了把这两个毛绒玩具带上天，我还专门下了一番功夫，专门从商场里面买了两个差不多的新玩具，然后从她手里边哄过来了。,亚新在哪玩,黄冠体育网址入口,世界杯竞彩网站关闭。

12月24日,你好，小镇丨河南道口：古埠流芳,证券日报网讯 12月23日，华斯股份在互动平台回答投资者提问时表示，截至12月20日的股东人数为24710户。,观看世界杯网站,葡京体育怎么开户,牛宝体育官网登录。

时事4：银河手机app

12月24日,菲律宾将举行大规模反腐抗议示威中使馆发布安全提醒,果然，在日本南端国界线上的冲之鸟礁被日本“双标”了，据《读卖新闻》透露：“尽管‘冲之鸟’周长不足100米，这次也被计算在内了。”,亚投彩票登录网址,世界杯买球噤嘇bs18殿me,九州滚球体育app官方主页。

12月24日,斯诺克苏格兰公开赛：中国军团6人晋级16强,中国政法大学财税法研究中心主任施正文告诉第一财经，根据2016年相关规定，跨境电子商务零售进口商品需要按照货物实际交易价格来征收关税和进口环节增值税、消费税，并对限额内给予零关税、进口环节增值税、消费税打七折的优惠政策。普通消费者通过跨境电子商务平台来缴税比较难管控，所以现行规定关税等代收代缴义务人有三类，分别是电子商务企业、电子商务交易平台企业或物流企业。,九州比分直播,365bet网址网页版,永远的gm游戏平台。

【探秘巫山红叶“红满山”背后的科技力量】

【环球时报社评：国际资本为何纷纷“加仓中国”】

责编：苍黎

审核：王莼农

责编：阿方索·卡隆