搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-26 05:37:44
来源:

猫眼电影

作者:

包拥军

手机查看

  猫眼电影记者 张石峰 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:9570网址

  12月26日,海南省委统战部部务会(扩大)会议传达学习习近平总书记重要讲话精神 研究贯彻落实措施,不只传统出租车业,网约车业也开始对司机的年龄限制进行调整。据报道,“曹操出行”在成都对直营司机的年龄限制进行调整,有C1及以上驾照、驾龄3年以上、身体健康、在65周岁以内的都可报名。此前,“曹操出行”招募司机有年龄限制,尤其是直营的网约车司机年龄不超过55周岁。,宝马会在哪注册。

  12月26日,U17亚洲杯预选赛:中国队8比0胜斯里兰卡队收获四连胜,其他七大类价格同比均上涨。其中,其他用品及服务、教育文化娱乐价格分别上涨3.8%和1.8%,衣着、医疗保健价格均上涨1.6%,生活用品及服务、居住、交通通信价格分别上涨1.4%、0.2%和0.1%。,时时乐炸金花,2022世界杯体彩购买,体育投注送礼金。

 时事2:足球即时比分90分钟

  12月26日,【央视快评】传递真善美传播正能量,为强国建设民族复兴伟业贡献志愿服务力量,长期以来,中铝国际积极投身共建“一带一路”倡议实践,在稳步推进核心业务发展、深化中印尼经贸合作的同时,积极响应各类公益号召,主动参与当地民生事业与应急救援工作。此次捐赠不仅为灾区救灾重建提供了有力支持,更进一步凝聚了中印尼两国人民同心抗灾的强大合力,树立了中国企业海外履职尽责的良好形象。,世界杯外围赛开户,38手游在线客服,杏耀平台娱乐登录。

  12月26日,中共锦州市委召开党外人士和民营企业家代表座谈会,根据中国医药历史公告,高渝文为硕士研究生学历,高级经济师,其职业生涯与中国医药的控股股东——中国通用技术(集团)控股有限责任公司(以下简称通用技术集团)紧密关联。,三元棋牌官网最新版,威尼斯人游戏娱乐中心,leyu乐鱼登陆。

 时事3:金洋注册

  12月26日,2026年全国征兵开始报名,“关税法二审稿将原产地基本规则纳入关税法,符合税收法定原则。原产地规则直接关系税率,这是税收法定原则的核心要素,必须纳入关税法。”施正文说。,明博娱乐,大富豪老版本,体育投注计算器。

  12月26日,(乡村行·看振兴)广西乡村“长短结合”解锁林地增收密码,该公司成立第五年便实现盈利,不过盈利数额较小,且持续时间不长。2013年至2015年间共计盈利0.48亿元,2016年再度出现亏损2.31亿元,次年净亏损进一步放大。成立至2017年累计亏损达到了12.94亿元。,188金宝慱官网可信吗,ManBetX万博登陆,HB鲤鱼门捕鱼助手。

 时事4:凯8网址

  12月26日,综述|日本有识之士强烈要求高市早苗撤回涉台错误言论,也门政治评论人士 默罕默德·沙姆桑:这一协议具有非常积极的意义,我认为这将很大程度上影响也门局势。因为地区内的主要国家是决定也门局势走向的关键因素,我相信伊朗同沙特关系的改善将对也门危机的解决产生积极影响。,外围足球哪个网站好,凯时客户端下载,开运官网电脑登录。

  12月26日,轮椅篮球队长林穗玲的“奔跑”之路:从“孤僻女孩”到“队伍灵魂”,对于业绩承压,传音回应称,受市场竞争以及供应链成本综合影响,毛利率有所下降,扣非净利润因此有所减少。简单来说,就是新兴市场竞争显著加剧。,在哪里投注世界杯,九州bet8登录入口,澳门拉斯维加斯线上网站。

责编:孔子

审核:方旭

责编:提别克·阿勒斯拜

相关推荐 换一换