搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-27 01:50:30
来源:

猫眼电影

作者:

吴成友

手机查看

  猫眼电影记者 王琪敏 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:足球滚球哪个平台好

  12月27日,两场“荒野求生赛”被叫停背后:搏流量须先系好安全绳,分行业看,广东全省在产工业行业大类增长面66.7%。重点行业中,计算机、通信和其他电子设备制造业增加值增长18.2%,电气机械和器材制造业增加值增长2.2%,石油、煤炭及其他燃料加工业增加值增长26.1%,化学原料和化学制品制造业增加值增长5.4%,电力、热力生产和供应业增加值增长8.2%。分产品看,新能源汽车、智能手机、集成电路产量分别增长13.9%、32.6%、42.8%。,看牌抢庄怎么玩。

  12月27日,中国海拔最高铁路客运站西藏雁石坪开通客运,网传视频中,曾有事发地附近景区工作人员对此事发声。但多方人士告诉红星新闻记者,事发地位于景区外,距离景区约有1~2公里的距离。上述镇政府工作人员表示,景区边界有围栏等明显标识。当事游客没有从景区入口进入海滩,也没有购买景区门票,事发位置离景区确实有相当一段距离。,奔驰娱乐在线最新网站,世界杯投注怎么算,玩老虎机有什么技巧吗。

 时事2:龙8国际网页版

  12月27日,工信部:前10月我国软件业务收入同比增长13.2%,通用汽车曾是美国电动汽车领域投资力度最大的车企,博拉透露,公司将继续在售现有电动车型,但未来基本不会再扩充电动车型阵容;原本规划用于电动汽车生产的产能,部分将被转用于增产大型皮卡与 SUV。通用同时表示,计划在未来推出插电混动车型,但暂未披露更多细节。,电玩游戏中心,永利体育体育下载,大发手机版安卓下载网址。

  12月27日,内塔尼亚胡贪腐案:以总理出席听证会 民众抗议其赦免请求,据广州市统计局分析,一季度,广州经济运行在面临燃油车、房地产两大市场需求不足影响,以及自身产业周期性、结构性因素的挑战下平稳开局,全市经济“量”的扩张、“质”的提升持续显现。但当前广州经济运行仍处于动能转换、结构调整的关键期,面临行业修复不平衡、新动能未能有力支撑增长等问题。,皇冠体育比分直播,乐游棋牌游戏,黄冠现金网下载。

 时事3:世界杯足球赛网站

  12月27日,青藏高原第一块茶田:雪山脚下,茶园飘香,另一方面,相比于政治和安全关系,莫迪推动产业链供应链从中国向印度转移的计划大概率会继续推进。,真钱世界杯买球平台,美高梅客户端,AG和记。

  12月27日,悉尼邦迪海滩枪击案现场:附近路段封控 多名警员驻守,钱所长解释,过去工商登记的规定和流程不严格,可以委托人代办,因此会出现这种“空壳个体户”。那么是否有人大批量“代办”刘院村个体工商户登记?钱所长称目前没有发现。“这些情况,我们核实完之后,会统一对外发布。”他同时告诉记者,2024年工商注册登记系统升级后,个体户也要提交年报,登记也需要现场人脸识别,冒名登记的情况应该可以杜绝。,188直播体,葡京扑克,日博体育平台首页。

 时事4:手机万博网页登录

  12月27日,中国房地产指数系统30年:行业发展潜能依然巨大,过去一周,地缘政治紧张局势上升进一步放大了黄金的避险吸引力,尤其是在委内瑞拉:美国封锁油轮,并加大对马杜罗(Nicolás Maduro)总统政府的施压力度。,OPE体育平台怎么玩,云顶娱乐游戏网站,贝搏体育下载的网址。

  12月27日,广东AI赋能基层医疗 2146家基层机构享智能诊疗服务,据香港大公文汇全媒体12日报道,香港特别行政区行政长官李家超今日(12日)赴北京,将列席第十四届全国人民代表大会第一次会议闭幕会。针对香港男子冰球代表队2月28日在世界冰球锦标赛第三级别比赛,主办方赛后播国歌时出错事件,李家超今日在机场会见记者时表示,国歌代表民族尊严、国家尊严,将竭尽一切所能,确保国歌在不同场合正确播出。,365世界杯足球投注网站,银河最新网址,欧洲杯预选赛比分。

责编:张应生

审核:苏巴什

责编:刘仁华

相关推荐 换一换