搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-26 07:54:53
来源:

猫眼电影

作者:

巴斯塔克市

手机查看

  猫眼电影记者 罗尔丹-佩雷斯 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:真钱赌大小

  12月26日,《行政执法监督条例》自2026年2月1日起施行,在这样的背景下,AI与电商成为快手押注的未来,而AI业务的表现不负众望,在今年下半年成为拉动公司增长的新动力。,新濠天地网站官网。

  12月26日,中国2025式人民警察制式服装正式列装,渤海湾沿岸是我国沿海重要经济中心之一。2023年,渤海湾两侧的山东和辽宁,GDP分别为9.2万亿元和3万亿元,总量在北方省份中居于第一梯队;而烟台和大连GDP分别为1.02万亿元和8752.9亿元。2023年,烟台首度跻身“万亿GDP”城市。,利发下载,澳门游戏app,365bet体育客户端下载。

 时事2:AG视讯APP下载

  12月26日,国际机构密集上调增长预期 中国经济基本面被看好,耿勇也感受到农商行的合作热情。两家农商行个金部愿开通“绿色通道”,让银行高层尽快审核理财产品代销合作协议,推动彼此迅速落实系统对接与产品销售培训。,365bet手机版中文,威尼斯人手机登录页面,凯时k66首页。

  12月26日,“小哥礼行”暖杭城:新就业群体共绘文明图景,但从销售渠道来看,国民养老保险对银保渠道依赖度较高,2024年保费收入居前5的保险产品均来自银保渠道。个人养老金业务同样如此,数据显示,为国民养老保险个人养老金业务提供代销服务的银行和券商机构超过20家。,蓝球即时比分,视讯棋牌,必威在线下载app。

 时事3:亿德体育网页版

  12月26日,山西高平链就村民“梨”想致富路,不过,港交所业绩仍胜于市场预期,24日股价大涨3.55%,报239港元。,体育平台提款被黑,银河官方mg,ag真人游戏官方。

  12月26日,希拉里:中国在太阳能和电动车等领域的优异成绩令人深刻,2022年,佛山R&D经费支出359.53 亿元,排在省内第四位,低于深圳 1880.49 亿元、广州 988.36 亿元、东莞458.72亿元;R&D经费投入强度2.83%,不仅低于3.42%的全省平均水平,且仅排在第六位,位居深圳 5.81%、东莞 4.10%、惠州 3.44%、广州 3.43%、珠海2.92%之后。,澳门银银河官方手机,可靠的体育平台推荐,万人推筒子棋牌游戏。

 时事4:真钱手机打鱼app

  12月26日,暴雪蓝色预警:山西河南等6省区部分地区有大雪 局地暴雪,12月10日,苏银理财发布公告称,部分理财产品新增浙江开化农商行、浙江绍兴瑞丰农商行作为销售机构。,kok体彩下载,火狐体育官方登录,靠谱的斗牛平台。

  12月26日,全国第十二届残运会:辽宁运动员用拼搏收获佳绩,要围绕商贸、教育、医疗、文化、旅游等领域,加强国际往来、扩大人文交流。,365在线手机版,凤凰彩票足球,54体育。

责编:毛燕

审核:林则林

责编:梅苑

相关推荐 换一换