大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
《棋牌游戏排名》,《首次登录送91元红包》开元棋脾558官网
“钱龙捕鱼怎么玩才能赢”
188宝金博娱乐官网
……
{!! riqi() !!}
“澳门网上真人游戏平台”{!! reci() !!}
↓↓↓
{!! riqi() !!},从墨韵到舞步 舞剧《颜真卿》“挥毫”千年风骨,下载贝博app,凤凰彩票足球,网上世界杯在哪里买球,抢庄牛牛高手玩法
{!! riqi() !!},【统战巡礼】围绕主线担当作为 “宁”聚力助塞上江南展新颜——“十四五”期间宁夏回族自治区统战工作综述,抢庄牛牛注册,澳门所有电子游戏排行,AG积分兑换,欧博官方下载
{!! riqi() !!},菲尔兹奖得主:中国有重视教育的千年传统 政府大力支持数学教育丨世界观,老虎机现金,澳门bet体育注册,凯发娱乐mx体育,赌博十大app下载
{!! riqi() !!}|1.6万名马拉松爱好者在珠海齐齐开跑|2019年欧洲杯赛程|大发下载地址|江苏快三|澳门官方直营网络赌场
{!! riqi() !!}|专访东盟贸促会会长:3.0时代,中国与东盟合作如何开新局?|世界杯买球去哪买的啊|开胜棋牌|华宇娱乐手机登录网址|最好的安卓游戏app
{!! riqi() !!}|全国超千家三级医院帮扶中西部地区 提升医疗服务能力|梅高美体育|天博综合手机app|凤凰彩票平台登录|十大网投平台大全……
{!! riqi() !!},为落地探“潜景” 观上海这场具身智能技能大赛背后的热闹与门道,乐鱼leyu官网电脑版,德扑圈平台,188体育平台规则,买世界杯彩票的网站
{!! riqi() !!},军国主义,借尸还魂?|新漫评,ag电玩,一分钟快彩票,银河充值下注,千亿国际网址多少
{!! riqi() !!}|电缆大盗上演“黑吃黑” 作案20余次终落网|官方赌场手机平台|优博直播视讯|华体会体育彩票|belay体育
{!! riqi() !!},南粤古驿道定向大赛总决赛粤赣联动重走“中央红色交通线”,尊龙z6平台,锦利娱乐游戏网址,万博手机端,3555奔驰宝马电玩
{!! riqi() !!},上海打通智能网联汽车跨区和跨省通行,天博app官网入,四虎体育,水果拉霸电子,ld乐动体育网址
{!! riqi() !!},中国数字文娱市场结构向“短视频主导”方向演变,澳门新濠博亚官网,贝博app体育官网,比赛最全的体育平台,能提现娱乐平台
{!! riqi() !!}|今天是全国交通安全日·安全提示:加塞抢行是交通事故最常见的“导火索”|爱体育网址入口|足球比分app哪个好|梭哈平台首页|免费游戏
{!! riqi() !!}|又迎丰收!全年粮食生产实现高位增产|真钱直营官方网站|澳门永利棋牌视讯|AG平台是怎么追杀的|188宝金博网页版下载
{!! riqi() !!}|660亿人次跨区域流动!2025年这些“亿级交通项目”你参与了几个?|188提款成功不到账|电子老虎机官网下载|足球体育软件|澳博在哪注册
{!! reci() !!},{!! reci() !!}|安踏集团与联合国难民署合作进行国际人道主义援助 惠及30万流离失所青少年|买球网站排名|斗牛看4张牌抢庄攻略|bc体育官方下载|竞猜世界杯怎么购买
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺