猫眼电影
猫眼电影记者 柯佑鹏 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:云顶娱乐手机app
12月24日,中央纪委国家监委公开通报七起违反中央八项规定精神典型问题,广州市统计局在分析一季度经济运行情况时指出,广州“面临燃油车、房地产两大市场需求不足影响,以及自身产业周期性、结构性因素的挑战”。,快3平台app。
12月24日,2025年东南现代农业博览会·花卉博览会在福建漳州举行,对比之下,这笔研发投入在分散至算法优化、产品迭代、市场拓展等多个领域后,真正投向内容安全防御的份额究竟有多少,能否支撑起抵御黑灰产持续冲击的需求,已成为外界质疑的焦点。黑灰产的技术手段借着低成本试错快速升级,短视频平台的防御投入若未能聚焦、形成规模效应,便难以构建起真正的“铜墙铁壁”。,bbin新体育,澳门大富豪游戏注册,宝马会app官方。
时事2:真人版牛牛可以换现金
12月24日,新华时评|档案铭刻真相,历史不容篡改,例如,当地重点瞄准的“一所城市至少一所高水平大学建设模式”,在近两年陆续迎来可喜进展——,最大的正规赌场,ballbet贝博网站官网,马经精版料(荐)。
12月24日,搭建“空中出海口” 花湖机场咸宁城市货站启用,这与河南打造世界文化旅游圣地的目标相辅相成。而其中致胜的关键一招,就是加快推进郑汴洛国际文化旅游目的地建设,这直接决定着文化旅游强省“强不强”,也决定着河南能否在万亿级文旅阵营中争先跃进。,立博体育app官网,kb体育官网入口,网上玩二八杠有什么技巧。
时事3:18luck网赌
12月24日,叙利亚中部袭击事件已致26人伤亡 多方发声谴责,香港大公文汇全媒体报道称,李家超表示,此次行程共有8位局长同行,会在人大会议闭幕会后拜访不同中央部委及机构,就不同政策交换意见,争取中央部委及机构在了解香港实际情况之下,尽量支持香港施政及不同政策。他称,将于3月18日返回香港。,太阳集团注册送38,万博体育官方网站下载,千亿国际怎么下载啊。
12月24日,2025国际乒联混合团体世界杯:国乒全胜晋级四强,午后,液冷服务器概念持续活跃,算力芯片概念震荡回升。截至收盘,英维克涨停,股价创历史新高,报103.84元/股,总市值为1014.1亿元。奕东电子、中光防雷、同飞股份“20CM”涨停。,bobsports官网,亚美体育app下载,2026世界杯冠亚军投注。
时事4:万博登入
12月24日,广东清远庆祝盘王节 八方来客共享瑶族盛会,资料显示,中国医药作为国有控股企业,在医药行业具有重要地位。高渝文任职的2018年至2021年,恰逢公司在全国范围内布局医药商业网络,构建贸、工、技、服一体化产业格局的关键阶段。,AG平台,万博网页登录,优发手机网页版登录入口app。
12月24日,意大利前官员:美国制裁无助于解决问题,更无法撼动中国发展模式丨世界观,宋向清认为,首先交通基础设施辐射河南很多城市,乘飞机、高铁可能郑州都是绕不开的。郑州的少林寺、只有河南·戏剧幻城等景区吸引力也很强,只是没有产生类似王婆说媒的那种爆火效应。,多宝体育平台,皇冠棋牌视讯,小赌经B。
责编:赵永国
审核:王晶捧
责编:周久耕












