搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-26 06:53:58
来源:

猫眼电影

作者:

乌拉多恩

手机查看

  猫眼电影记者 庄王 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:完美竞技官网网址

  12月26日,福建发改委主任孟芊谈2026年经济工作:福建数字化赋能智能化改造走在前列,李瀚明进一步分析,西安接近中国的几何中心,这样的地理位置飞国内任何地方都很便利。加上西安产业发达,又是旅游胜地,这些因素让西安国内客流常年处于高位,间接影响了打造国际枢纽的必要性。此外,也是因为接近国内几何中心,西安无论哪个方向的洲际航线,都得使用宽体机。二线枢纽用宽体机飞国际线,往往存在客流不足、上座率不高的情况。,世界杯买球下载软件。

  12月26日,外贸一线观察 广东:共建“一带一路”国家订单增长明显,不过,肇庆市的新政依然引发社会对“取消公摊面积的合理性和可行性”的广泛探讨,尤其是“取消公摊会导致房价上涨吗”的话题一度冲上舆论热搜。对此,多名接受第一财经采访的业界人士认为,商品房销售中的计价方式改变与否,总房价理论上都不会发生变化。,开元棋盘牌官网最新版,澳彩网,188金宝搏手机app下载。

 时事2:AG8登录不了

  12月26日,“对不起,人工座席目前全忙……”转人工客服,为何这么难?,英国媒体近日报道称,英国政府已与澳方达成原则性协议,供应采用英方设计、至少部分在英国建造的核潜艇,其每艘造价约20亿英镑(约合164.7亿元人民币)。有媒体报道,英方将把英国海军订购的“阿伽门农”号和“阿金库尔”号两艘“机敏”级攻击核潜艇转卖给澳方,预计分别于2024年和2026年完工。,纬来体育app官网下载,博鱼体育,火狐注册送18。

  12月26日,天津发布重污染天气橙色预警,此外,《证券法》第82条明确规定,董监高需对定期报告签署书面确认意见,并保证其“真实、准确、完整”。签字即代表个人背书,而非形式走过场。,日博体育主页平台首页,现金体育游艺,m6米乐官方下载。

 时事3:365体育在投注网站真的页面

  12月26日,送别中国四大名著“全满贯”演员何晴,其间他还曾在云南省德宏傣族景颇族自治州任职,担任过州委常委、副州长。,爱博赌场网站,星速下载app下载安卓,电子游艺注册。

  12月26日,外交部:人们必须要问日方,是否在为自身扩军出海打掩护、找借口,经研究,聘任徐平、石晟怡、吴盛悦、高一斌为中国通用技术(集团)控股有限责任公司外部董事,朱鸿杰不再担任中国通用技术(集团)控股有限责任公司外部董事职务。,新宝gg最新地址,亿博在线登陆,bo体育官网登录。

 时事4:官方飞鸟派对游戏下载

  12月26日,政企携手育人才,贝壳以“服务者价值”助推居住服务高质量发展,北京时间10日,沙特伊朗在中国的斡旋下,宣布达成协议,重新恢复外交关系。对此,也门政治评论人士默罕默德·沙姆桑在接受总台记者采访时表示,沙特和伊朗在也门冲突中扮演了重要角色,两国关系的改善,也让深陷冲突的也门人民看到了希望。,重庆国际搏击真人秀,网络赌彩,幸运大转盘。

  12月26日,“八个坚持”!明年经济工作重点任务来了,要更好链接内陆省份与沿线国家,推动深化经贸合作,打造向西开放的桥头堡;,美高梅彩票平台网址,九州体育官方网址,乐鱼网页登陆。

责编:吐尔逊江

审核:许世坛

责编:雷禄新

相关推荐 换一换