猫眼电影
猫眼电影记者 玛塔姆班纳 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:美国世界杯转播网站
12月26日,宁夏银川召开庆祝中国民主促进会成立80周年大会,据测算,在4月份0.3%的CPI同比变动中,翘尾影响约为-0.1个百分点,今年价格变动的新影响约为0.4个百分点。,qy30千赢国际。
12月26日,《见证》——台湾光复之路(1895-1945)VR大空间项目在北京发布,蹊跷的是,汪绪良注册于2012年的工商信息被注销后,2023年6月26日、6月27日又被注册了两家个体工商信息,且注册资金均为10万。“注册地址都具体到我家门牌号了。但我们完全不知情。家里看病欠了几万的债,也不可能有这些钱。”汪争猛说。,2000年欧洲杯金球绝杀,bc体育官方下载,澳门上网导航。
时事2:篮球世界杯2026买球卡
12月26日,吉林农村电影放映升级 “室内影院”温暖村庄冬日,本次交割完成后,ASL成为泰坦科技的全资子公司,纳入公司合并报表范围; 标的公司交割日审计、内部控制管理整合等工作将有序开展。本次交易符合公司发展战略,将为公司在多个方面带来提升,同时能和标的公司形成有效协同:不仅为公司带来一系列创新产品,还新增海外生产和经营实体。公司将在全球范围内对现有的供产销全业务链条实施整合,本次交易加快了公司海外布局步伐。,博鱼注册彩金,K8凯发网投平台,果博体育下载。
12月26日,(乡村行·看振兴)安徽五河2025年就业三份“账单”映见民生暖意,除此之外,平台仍缺乏完善的应急预案与风控策略。此次黑灰产攻击明显为有组织、技术化的行为,攻击者操控大量僵尸账号在同一时段开播,但面对这种非常规攻击,快手显然缺乏成熟的应对方案,处置初期既无快速定位批量违规账号的技术手段,也无分级管控、精准限流的应急流程,导致工作人员只能封禁单个账号,难以遏制违规内容的大规模扩散。,在线买球平台,888真人入口,明升开户注册。
时事3:必发bf88官网
12月26日,园来如此丨从明星到医生,AI换脸泛滥,谁在偷走你的脸?,其上任后,与董事长房文斌共同推动国任保险深化改革,带领该公司向市场化、数字化、集团化方向发展。此后,国任保险保费规模持续扩张,并保持连年盈利。,pg电子免费体验,完美国际娱乐app,亚美在线娱乐。
12月26日,全国残特奥会广西代表团授旗出征,另一方面,相比于政治和安全关系,莫迪推动产业链供应链从中国向印度转移的计划大概率会继续推进。,澳门人威尼斯官方,365bet滚球有赚钱的,环亚注册中心。
时事4:买球app
12月26日,2026年省港杯超级足球邀请赛(佛山三水赛区)开赛,当前AI应用非常广泛,我们的手机都智能化了,但业务系统如何智能化是个大问题。原有的核心业务系统可能各家公司都有,但难以支持创新业务和精细化、批量化的业务需求。,真金赌博注册,日博体育官网平台,冰球突破的网址。
12月26日,【统战深一度】2025年统一战线理论研究工作亮点解读,“你们做的是具有历史意义的事情,已经取得很好的成绩,再接再厉,前途光明。”,E世博在线登录,开云网址,M6登录。
责编:杨光宇
审核:尼玛潘多
责编:聂元剑












