搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-25 09:30:06
来源:

猫眼电影

作者:

吴筱溪

手机查看

  猫眼电影记者 王蓄锐 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:线上真钱炸金花

  12月25日,大风蓝色预警:新疆青海等9省区部分地区阵风可达8至9级,欧委会称,如果与中方的讨论不能得出有效的解决方案,此次临时关税将从7月4日起引入。,威尼斯电子游戏网站。

  12月25日,关注加勒比局势:委内瑞拉原住民集会支持政府 呼吁和平,首先,将帅搭班情况来看,该公司董事长、总裁任职情况也有新变化。担任董事长职务长达7年的房永斌于2024年底连任,这意味着其或将成为该公司发展史上首位任期超10年的董事长。另外,年满60周岁的总裁邓可今年也增加了两项新职责:合规、财务。,九州体育登陆,韦德亚洲体育,威尼斯城vnsc登录平台。

 时事2:世博体育app下载在线

  12月25日,法国卢浮宫将对大多数非欧盟国家游客提高门票价格,央行的黄金储备布局并非固定不变而是动态调整。部分央行会根据国际形势的变化,静默而缓慢地调整黄金的存放地。例如,德国在2013年-2017年,分批次从纽约和巴黎运回674吨黄金,采用了高度保密的物流方案。印度央行在2025年将其超过65%的黄金储备转移至国内存放。,am亚美,9号赌城,bob取款要多久。

  12月25日,广西提升中医药服务可及性 打造四级网络惠及基层,邓肯以“挑战LGBTQ+权利”而闻名,因此饱受美国的左翼人士批评,同性恋法律辩护团体“浪达法律”(Lambda Legal)曾抨击称“他的整个职业生涯都在致力于消灭人权进步”。,凯时app娱乐,亿博体育官网,吉祥体育坊。

 时事3:bg大游娱乐

  12月25日,未来五年 全国养老护理员缺口超500万,1978年,国家启动“三北防护林”工程。三北是西北、华北及东北的统称,这个横跨整个北方的防护林工程体系,集中涵盖了风沙危害和水土流失严重的区域。“三北防护林工程”被誉为世界上“最大的植树造林工程”,科尔沁沙地是造林重点。它横跨三省区、涉及面积7760万亩,科左中旗的希伯花镇也是这沙地环绕的一部分。,皇冠手机app哪里下载,沙巴体育下注平台,银河体育官网app。

  12月25日,“行走在故宫的安徽人”巡展在香港开展,当地时间8月29日,巴黎残奥会首个比赛日。在伊夫林省圣康坦自行车馆,中国队选手李樟煜上演了一场“速度与激情”。男子C1级3000米个人追逐赛资格赛,他以3:31.338的成绩刷新该项目世界纪录。决赛中,李樟煜状态火热,夺得金牌,这也是中国体育代表团在本届残奥会上获得的首枚金牌。另一位中国队选手梁伟聪摘得银牌,恭喜中国队包揽该项目金银牌!,网上购彩客户端,正规的炸金花,真人版炸金花。

 时事4:开元娱乐66ky

  12月25日,民革十四届四中全会在北京开幕,报道称,为了延长无人机队的使用寿命,无人机操控员们近来一直在疯狂购入飞机、电池和备件。埃伯特拥有一支由七名无人机操控员组成的团队,他们负责监控数千英亩(1英亩约合4047平方米)土地上太阳能和风力涡轮机装置的建设。他的公司储备了三十多架无人机及相关设备,“因为预见到了2026年(可能)发生的事情”。,皇冠会员手机app怎么下载,美高梅体育官方app,心博天下手机版登陆。

  12月25日,中国机动车零部件及配件碳足迹量化迎来专门标准,对于刚刚上任董事会主席的唐家成来说,目前面临诸多挑战,恒生指数已连跌4年,港交所IPO上市数量和融资规模暂时也处在低谷,近年流动性不足、股权融资市场不景气一直被市场诟病。,送彩金的网站有哪些,开元棋盘8019,手机皇冠新现金网下载。

责编:胡文阁

审核:董晋

责编:齐磊

相关推荐 换一换