搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-28 10:45:12
来源:

猫眼电影

作者:

贾正兰

手机查看

  猫眼电影记者 洪川 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:尊龙在哪玩

  12月28日,海南打造高水平对外开放新高地,12月15日,浙商银行召开专题党委会,党委书记、董事长(拟任)、行长陈海强主持会议并在讲话中提出三点要求:,凯发登录网站。

  12月28日,东部最特殊的地区,要发力了!,中亚国家都是穆斯林国家,内部民族宗教问题错综复杂,独立后国家治理转型艰难。上合组织成立以来,中亚国家虽然多次爆发骚乱冲突,吉尔吉斯斯坦还发生过“颜色革命”,但地区整体局势保持了基本稳定,没有发生类似“阿拉伯之春”的大规模动荡,也没有出现“伊斯兰国”这样乘乱坐大的极端组织。,真人娱乐棋牌平台,365bet官网娱乐,电竞投注竞猜。

 时事2:优博网址是多少

  12月28日,文化观察:浙苏新生代同演《牡丹亭》 古老昆曲何以唱新声?,“早就不关心足球了,伤心了,辽足也没了,现在沈阳看辽篮的球迷多。”打车去少年宫的路上,出租车司机和澎湃新闻记者闲聊起了这场中泰之战,说着说着,司机开始真情流露,“武磊踢不了,希望韦世豪能够帮助球队,他和几名归化球员状态都不错。”,单机版炸金花下载官网,博狗网站登录,bbin体育注册。

  12月28日,国家金融监管总局要求在港中资银行保险公司及时满足灾民金融需求,12月23日,昊海生科发布公告称,公司控股股东、实际控制人之一蒋伟因内幕交易、建议他人买卖证券行为,收到中国证监会出具的《行政处罚决定书》,被没收违法所得471万元,并处以1463万元罚款。,188即时比分直播,KU体育网址是多少啊,世界杯手机在哪投注。

 时事3:波胆比分官网

  12月28日,何立峰出席海南自由贸易港全岛封关启动活动并讲话,随着深度求索 —— 这款被誉为 “中国版 ChatGPT” 的产品爆火,投资者对中国人工智能领域的兴趣激增。一批初创企业相继在中国大陆和中国香港上市,吸引了全球资产管理机构的目光,它们正愈发关注这些中国人工智能企业。,线上百家乐网,AG官方网站地址,大发手机版网页登录。

  12月28日,跌破8米极枯水位线!鄱阳湖水位仍将持续走低,“战区”栏目评论称,从军事角度来看,能够快速评估卫星的损坏情况,并一定程度上修复卫星然后恢复运行,这在大规模的战争中是至关重要的。而美国军方严重依赖天基资产来提供早期预警、情报收集、导航和武器制导、通信和数据共享以及其他支持。,世界杯网上投注平台,国际易发娱乐平台,直营赌场游戏。

 时事4:真人森林舞会

  12月28日,此行间·“让人民群众在这里有获得感,有幸福感”,“我的立场始终坚定,” 特朗普在 4 月时称,“因为这件事我已经谈了 40 年。”,银河全部彩票平台,皇冠app软件下载,波克城市欢乐捕鱼下载。

  12月28日,京东宣布追加超过3000万元物资,保障香港大埔火灾后民生所需,CNN称,在地缘政治紧张局势不断加剧的背景下,北约在日本开设联络处标志着这个西方联盟的“重大进展”。,888真人备用网址,新利体育在线登录,彩票彩6官网下载。

责编:葛卫东

审核:王聃

责编:储朝晖

相关推荐 换一换