搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-27 14:45:24
来源:

猫眼电影

作者:

陆继善

手机查看

  猫眼电影记者 王汝云 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:求靠谱足球现金体育网

  12月27日,第四届江南文脉论坛举行 中外学者共话江南文脉与现代文明建设,“中国+中亚五国”合作机制从外长定期会晤机制起步。2020年7月,“中国+中亚五国”首次外长会晤通过视频方式举行。,金佰利菲律宾国际真人在线。

  12月27日,中央经济工作会议:鼓励支持灵活就业人员参加职工保险,未来,双方将继续依托 NEXT-BIO 平台,聚焦多肽、小分子及新机制等重点方向,打造常态化的“项目遴选 + 专家评估 + 共研共投对接”机制,推动更多具有 FIC/BIC 潜力的中国创新药资产走出实验室、走向临床与全球市场,实现真正意义上的“共研、共投、共赢”。,海洋之神3380cm,齐齐哈尔棋牌游戏,世界杯网址 网站推荐。

 时事2:亚星管理平台入口

  12月27日,甘肃陇南统战的秦风网事,进一步改进工作作风,严格要求自己,求真务实,真抓实干,坚持以人民为中心的创作导向,强化“国家队”意识,努力以优秀作品向着艺术“高峰”不断攀登。,傲世皇朝注册,ayx官方网站,ug体育平台注册。

  12月27日,崔保华一审获刑14年 受贿所得财物及孳息已全部追缴,中方对2024年3月成功举行的俄罗斯联邦总统大选表示欢迎,认为本次选举组织程度高,公开、客观且具有全民性,其结果充分彰显俄罗斯政府所奉行的国家政策获得广泛拥护,而发展同中华人民共和国的友好关系是俄罗斯外交政策的重要组成部分。,现金网址下载安装,足球即时大赢家,沙巴体育客户端去哪里下载。

 时事3:沙巴体育平台维护

  12月27日,海南封关首日见闻:“二线口岸”货物通关顺畅,海外网4月20日电 据俄罗斯卫星通讯社20日报道,俄罗斯副外长亚历山大·潘金19日表示,美元迅速失去其储备地位正成为一种趋势,这种趋势因近些年的各种危机而加速。,2026年世界杯买球规则,澳门新葡平台游戏app官网,皇冠赢三张官网。

  12月27日,无牌、挡牌车屡见不鲜 电动自行车号牌乱象该管管了,西安咸阳机场T5,与北京大兴机场、成都天府机场航站楼面积相当。三座机场中规模最小的兰州中川机场T3,面积也相当于上海虹桥机场两座航站楼之和。,凯发真人手机版,华泰证券,必赢亚洲手机版app。

 时事4:永利注册入口

  12月27日,广西大瑶山国家级自然保护区植物科考野外调查收官,5月16日下午,国家主席习近平和俄罗斯总统普京在北京国家大剧院共同出席“中俄文化年”开幕式暨庆祝中俄建交75周年专场音乐会并致辞。,澳门皇冠游戏app下载,炸金花大小顺序图片,365速发网站谁知道。

  12月27日,广州五年内引进首店近1800家培育国际消费中心城市,钟自然出生于1962年8月,安徽桐城人,曾在原地质矿产部和原国土资源部工作多年,2014年任原国土资源部党组成员,中国地质调查局局长、党组书记。,手机平台彩票网,银河国际娱乐线上娱,米乐登录。

责编:席海雄

审核:格兰姆贝克

责编:任鹏

相关推荐 换一换