搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-24 03:16:18
来源:

猫眼电影

作者:

明郅

手机查看

  猫眼电影记者 李辉 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:爱博苹果版

  12月24日,新阶层·新经济丨国术科技董事长袁国术:全球数字化浪潮中的“搭积木者”,国内外分散模式是最常见的策略,这里考虑到历史原因、储备资产的战略安全和流动性管理。代表性的有德国、意大利、荷兰、瑞士、葡萄牙、奥地利、比利时等欧洲国家。,芒果体育网。

  12月24日,这一年,以优良作风凝心聚力、真抓实干(年终特别报道),赛意信息作为扎根制造业数智化转型领域的头部企业,坚持以“全栈信创能力”为根基,以持续自主研发创新为内核,凭借多样化的安全产品布局、全面的安全能力建设以及与主流自主创新组件的兼容性,构建覆盖基础硬件、核心软件到应用系统的全栈式自主可控国产替代解决方案,从芯片到操作系统,从中间件到数据库,赛意信息携手生态伙伴赋能企业提供全链条的国产化支持,提供从技术底层到业务应用的全方位安全保障。,亚美am8,半岛网官微,易胜博网站。

 时事2:免费白菜送体验金

  12月24日,第十三届“东升杯”国际创业大赛收官 2061个项目参与角逐,双方主张维护中东地区和平稳定,反对干涉地区国家内政。双方支持在以“两国方案”为关键要素的公认国际法基础上全面、公正、持久解决巴勒斯坦问题,期待看到建立以1967年边界为基础,东耶路撒冷为首都,与以色列和平安全共存的独立的巴勒斯坦国。,杏彩网页版登录注册,皇冠娱乐官网,东南亚十大赌场。

  12月24日,2025公募基金人事变局:434人次高管变动背后的转型阵痛,报道称,有类似想法的还有杰森·科利普,他与大约300名房地产经纪人合作,负责拍摄房屋的航拍照片和视频。“我,一个在南部密西西比州操控无人机飞越松树林和房屋的小人物,为什么要限制这类活动呢?”科利普表示,“作为一名小企业主,我们还有什么其他选择?目前我们真的没有答案。”,大富豪官网下载中心,ayx体育外围,AG亚游戏官网。

 时事3:香港信息快报B(新)

  12月24日,宁夏银川:生态打底 让“塞上湖城”既有颜值更有内涵,据西宁市广播电视台4月23日消息,近日,中国工商银行青海省分行人民武装部揭牌仪式在西宁举行,标志着西宁市首个央企基层武装部正式成立。,百老汇换网站了,大发手机官网登录,凯时国际官网app下载。

  12月24日,“侨聚云南·同心圆梦”收官 发挥“侨”力量促共同发展,2013年,王超从商务部调任外交部,出任外交部副部长,分管欧洲地区事务、翻译、档案和机关党务工作。,澳门老银河注册,真实送彩金的游戏,4-香港神算。

 时事4:jdb捕鱼放水时间怎么算

  12月24日,四川男篮新赛季首轮不敌广州男篮,加强在联合国、金砖国家、上海合作组织等国际多边平台以及地区事务中的沟通和协作,展现国际担当,推动建立公正合理的全球治理体系。,开心斗地主在线玩,聚星平台官网登录,MG电子网投。

  12月24日,(文化中国行)新疆“90后”文物修复师:让北庭故城千年遗存获新生,表面上看,北京人寿已成功穿越盈亏平衡点,步入盈利快车道。公司不仅在成立的第六年(2023年)就实现了盈利,打破了寿险业“七平八盈”的常规周期,更在随后两年实现了利润的几何级数增长。2024年,公司净利润达1.04亿元,同比激增近8倍;2025年上半年,净利润进一步跃升至1.50亿元。与此同时,公司资产规模持续扩张,2025年6月末总资产突破320亿元,综合偿付能力充足率保持在190%以上的高位。,黄金岛官方,bg大游平台自营,博鱼网投。

责编:拜塞克

审核:郑宗华

责编:冀新琪

相关推荐 换一换