搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-29 17:36:54
来源:

猫眼电影

作者:

李宜钰

手机查看

  猫眼电影记者 徐嘉杰 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:斗牛棋牌在线试玩

  12月29日,黑龙江伊春森工集团有限责任公司原总经理杨公伟被“双开”,事实上,特朗普团队此前关于经济增长的诸多承诺,如今已将预期目标转向 2026 年。,MG视讯充值就送。

  12月29日,年轻人当上“文化特派员”:既当“搭桥人”链接资源 又做“播种者”培育内生动力,相关数据显示,包括Pilbara、ALB在内的主流矿企,资本开支峰值多数在2023年下半年触顶后持续回落。,米乐平台被骗的钱能举报吗,有牛牛的斗地主叫什么,澳门真人国际娱乐。

 时事2:凤凰彩票在线登陆

  12月29日,USANA任命王生为中国区总裁,开启本土化深耕新篇章,摩根大通预计,2026年黄金ETF的净新增持仓量约为250吨,金条与金币的年需求将再次超过1200吨。截至2025年9月底,投资者通过ETF、实物黄金及COMEX期货持有的黄金,已占全球股票、债券(不含央行储备)及另类资产管理规模(AUM)的约2.8%。摩根大通分析师认为,未来几年这一占比有望提升至4%–5%。,ag娱乐旗航厅网站,满贯捕鱼是怎样玩的游戏,bet36靠谱吗。

  12月29日,中方是否计划允许韩国流行音乐重返大陆?外交部回应,在此之前,赣锋锂业、天齐锂业也已经先后向业内释放出了乐观预期。两家全球性行业龙头普遍认为,受益于可再生能源并网、商用重卡等电动化设备等领域的需求增长,2026年全球锂需求有望增长至200万吨左右,基本达到供需平衡。,亚新体育真人百家乐,齐发国际官网手机版下载,乐鱼体育平台怎么样。

 时事3:pg电子游戏十倍金牛

  12月29日,千年古县城出圈 浙江慈城假期客流同比增156.4%,近日,一品红药业集团股份有限公司收到国家药品监督管理局核准签发的关于丙戊酸钠注射用浓溶液的《药品注册证书》。丙戊酸钠注射用浓溶液是国家医保乙类产品。公司获批的丙戊酸钠注射用浓溶液是以化学药品3类申报注册,视同通过一致性评价。,天游娱乐,bbin真人电子登陆器,华体汇体育app官方下载。

  12月29日,两菜一汤的温度:当大埔火灾灾民来到香港过渡性房屋,1、流动性变化超预期:由于机构和央行行为存在不确定性,市场流动性变化可能超预期,导致部分分析结果不适用。,万博官网欢迎你,188体育娱乐,大玩家游戏。

 时事4:澳门永乐平台

  12月29日,长江经济带近视防控工作现场推进活动在武汉举行,《华尔街日报》报道称,在泽连斯基向英国议会发出“情感充沛的请求”、要求伦敦提供更多军事援助数小时后,有英国官员透露,该国首相苏纳克已责成国防大臣华莱士分析英国可能派遣哪些喷气式飞机。但该官员补充说,英国政府尚未做出最终决定,飞行员接受全面培训可能需要很长时间。,bet365app最新版,vwin德赢app扫码,真钱线上直营。

  12月29日,中央社会工作部有关部门负责同志就修订后的《社会工作者职业资格考试大纲》答记者问,这两个新增内容都体现了在意见征求期间监管层对市场行为的一些新理解,进一步加强了对基金管理人、基金销售机构的监督管理。,欧亚网址,e星体育不出款,彩神彩票登录大厅。

责编:张朝财

审核:陈玉凤

责编:许尚达

相关推荐 换一换