大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
《爱体育登录首页》,《首次登录送91元红包》米乐m6网站
“AG亚集团”
世界杯 投注吧
……
{!! riqi() !!}
“云开体育app网页版”{!! reci() !!}
↓↓↓
{!! riqi() !!},深圳地铁首次试点启用智能导盲犬服务,九五至尊线路检测,世界杯买球软件,手机投注世界杯软件,欧洲杯赌注在哪里买
{!! riqi() !!},呼和浩特一烧烤店深夜起火致1人死亡,新利体育官网app下载,365bet国际娱乐,传真八点来料,信誉体育平台有哪些
{!! riqi() !!},广西海上风电装备批量出口欧洲,新一代富婆,足彩澳门即时盘比分,sportbet体育平台,炸金花棋牌游戏那个好
{!! riqi() !!}|崔保华一审获刑14年 受贿所得财物及孳息已全部追缴|真人国际象棋赛视频教程|KOK体育|大发体育app下载|华体会体育最新登录
{!! riqi() !!}|可持续社会价值创新大会——2025解法|pg电子模拟器网站模版|九洲天下现金网|千亿体育入口官网|鸿博体育注册送18
{!! riqi() !!}|羽超联赛第一循环结束:厦门银行队领跑排行榜|合法的买球app|AG电子|博狗网站登录页博狗网|威廉士官方网站……
{!! riqi() !!},给“跟在后面的那个人”预留余量——残特奥会展示科技助残“新可能”,澳门永利网址,美高梅网址平台,世界杯投注前c77典tv,bet365官网地址
{!! riqi() !!},文物化身“掌中餐” 中国多地博物馆成年轻人新“社交餐桌”,大嬴家彩票官网,皇冠足球app,下载凤凰彩票新平台,澳博下载
{!! riqi() !!}|数智赋能外语学科革新 全国百余位专家聚鲁献策创新发展|杏彩平台app下载|下载炸金花app|万博的最新下载地址|亚博AG
{!! riqi() !!},梁水映东城:辽阳汉魏晋壁画摹本暨出土文物展在沈阳开展,uedbet官网,斗球app官网旧版下载OD体育官网是多少,球探足分网,淘金官网开户
{!! riqi() !!},国台办:统一是台湾前途的唯一方向,新利luck18网址,手机版博公司老网址,188体育开户官方,新濠博亚娱乐网址
{!! riqi() !!},向新而行|两只翅膀都要硬起来,必赢亚洲怎么登陆不上,纬来体育在线官网,世界杯投注额度,财经赌侠
{!! riqi() !!}|多举措促进我国明年经济稳中求进 提质增效|伟德体育在哪注册|亚娱入口|365bet体育手机版中文|小金体育在线
{!! riqi() !!}|2025中国田径协会10公里精英赛重庆站鸣枪起跑|ayx爱游戏app下载ios|泰达足球|体育买球app|足球即时比分90分钟
{!! riqi() !!}|悉尼发生大规模枪击事件 中方对遇难者表示哀悼|新皇冠app官方版下载|开杬棋牌|九州体育娱乐手机登录|kaiyun官方下载APP
{!! reci() !!},{!! reci() !!}|多国年度汉字发布 一字勾勒世相万千|2020欧洲杯直播时间|亚美am8优惠永远多一下|欧亿体育app下载|亚游国际AG
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺