搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-26 07:28:19
来源:

猫眼电影

作者:

鲍汝澧

手机查看

  猫眼电影记者 肖龙辉 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:MG真人入口

  12月26日,成都混团世界杯:中国队十战十胜晋级决赛,“经历了2023-2025连续三年价格下跌,企业财务恶化,盈利预期下滑,导致国内外锂矿公司大幅降低资本开支。”天风证券(维权)指出,未来再新增资本开支,需要有足够高的价格或盈利才行,而上一轮存活下来的玩家扩张会更为谨慎。,188篮球比分平台。

  12月26日,国家“十四五”规划重大工程叶巴滩水电站首批机组投产,其实,郑州对文旅的带动作用不一定表现在某一产品或服务,能够吸引多大的客流量。它对文旅产业的辐射带动,是多维度、多方面的。,m6米乐足球为什么提不了现,世界杯网上下注,888真人888国际。

 时事2:dafa登路

  12月26日,诸葛亮飙英文、唐僧反内耗……AI“二创魔改”边界在哪?,今年 9 月,美国联邦政府推出的最高 7500 美元电动汽车购车补贴正式终止。博拉表示,补贴退场后,电动汽车的真实市场需求究竟有多少,‘现在下定论还为时过早’,车企大概率会在未来六个月内,逐步摸清市场的真实需求水平。,188体育上盘,新葡萄娱乐app下载,体育平台登陆。

  12月26日,中国乒协:将进一步完善运动员健康保障与伤病预防机制,气象部门预报,数日内新一次“大气河”天气将侵袭加州,且更多这类天气状况似乎正在酝酿。,beat365官方入口,ope体育注册页面,体育娱乐游艺平台。

 时事3:能看四张牌的抢庄牛牛

  12月26日,学习规划建议每日问答|怎样理解健全一体衔接的流通规则和标准,习近平阐述了中方一贯立场以及为推动政治解决乌克兰危机所作努力,强调处理任何重大问题既要治标,也要治本;既要谋当下,也要计长远。我提出全球安全倡议,核心是倡导共同、综合、合作、可持续的安全观。解决乌克兰危机的根本之策是推动构建均衡、有效、可持续的新型安全架构。中方支持适时召开俄乌双方认可、各方平等参与、公平讨论所有方案的国际和会,推动早日政治解决乌克兰问题,愿继续为此发挥建设性作用。,米乐官网登录,开云直播视讯,沙巴体育app官网登录。

  12月26日,中柬经贸合作面临广阔发展前景,1月30日,唐家成在出席活动致辞时指出,今年往后一段时间,港交所及香港证监会将会研究收窄股票买卖价差,此前也发布了上市公司库存股份咨询文件,相信这有助提升香港市场的流动性及吸引力。,1赔0.95刷反水技巧,凯发娱乐网站官网,欧宝ob体育app登陆。

 时事4:男篮世界杯买球平台

  12月26日,湖北农业博览会启幕 现场签约逾244亿元,CBU购买黄金时,向经济注入大量乌兹别克苏姆,为了减轻这种流动性投放,CBU在2018年采取了中立原则,即通过当地货币交易所出售外汇来抵消其黄金购买。,永利金沙 网址,凯发手机娱乐app下载,ku游官网。

  12月26日,2030年我国天然气产量将达3000亿立方米,日媒:日本国会收到炸弹威胁信息,威胁者称“唯有恐袭才能改变日本”,365bet体育在线亚洲,j9九游国际真人,亚博游戏平台。

责编:朱彦西

审核:杨忠

责编:泰诺

相关推荐 换一换