猫眼电影
猫眼电影记者 杜锋 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:betway官方网站登录
12月24日,钒钛产业探索“AI+材料”新路径 破解数字化转型“必修课”,双方高度重视人工智能问题,愿就人工智能的发展、安全和治理加强交流与合作。俄方欢迎中方提出《全球人工智能治理倡议》,中方欢迎俄方在人工智能领域提出治理准则。双方同意建立并用好定期磋商机制加强人工智能和开源技术合作,在国际平台上审议人工智能监管问题时协调立场,支持对方举办的人工智能相关国际会议。,ManBetX万博网站是多少。
12月24日,重庆提17条举措促进西部陆海新通道多式联运发展,“反补贴调查是针对企业出口产品是否存在政府或公共机构提供的相关补贴,对进口国国内产业造成实质损害或实质损害威胁进行调查,继而判断是否要采取贸易救济措施。”对外经济贸易大学中国WTO研究院院长屠新泉在接受贝壳财经记者采访时表示,不同企业被认定接受的补贴不同,所被征收的关税税率也不同。,威斯尼人下载全网独家,九州官方下载,九州体育平台登录入口。
时事2:哪个平台可以赌足球
12月24日,2025特步泉州晋江马拉松赛开跑 海内外选手畅跑世遗路,按照这一渗透率预期,车企此前为电动汽车研发、生产投入的数十亿美元资金,根本无法收回成本。正因如此,车企正大幅调整规划,为消费者提供更多元的选择 —— 纯电车型、混动车型,以及传统燃油车型并行布局。,乐鱼体育官方直营门户,金宝搏188手机app官网下载,网上十大赌博排行。
12月24日,电缆大盗上演“黑吃黑” 作案20余次终落网,香港交易所集团行政总裁陈翊庭表示:“香港交易所在2024年第一季展现实力和韧性。尽管全球宏观环境疲弱,集团的衍生产品及商品业务仍然表现强劲,衍生产品的成交量更创下季度新高。虽然股票市场受宏观市场气氛影响持续疲软,但今年三月和四月的平均每日成交额已经明显回升,显示投资者信心有所复苏。”,乐动体育体育平台,泛亚电竞下载app,森林舞会游戏厅。
时事3:ag亚洲厅官方网站
12月24日,关注俄乌冲突·俄总统新闻秘书表示:俄方需要了解美乌会谈结果,民营经济科技支撑力度不够,这与其区位有一定关系。从广佛同城化角度看,佛山背靠省会广州,但是这些年广州的三大支柱产业,汽车、电子和石化,本身增长也较为乏力。,球球官方网,3777金沙的网址是多少,押飞禽走兽的公式。
12月24日,习言道|网络乱象要坚决打击,赵秀池表示,公摊面积是确实存在的,不管以什么形式计量,都是回避不了公摊面积的。而且楼层越高,公摊面积越大;住房质量越高,公摊面积越大。,澳门黄冠网站,betway体育,bob手机版官网APP。
时事4:世界杯买球在哪里买号
12月24日,王一鸣:2026年中国经济有四大机遇,“这就好比大喊‘着火了’一样,一旦营造出紧迫感,自然会吸引大量关注。”,伟德体育注册送18,滚球游戏,手机赌博大厅。
12月24日,英国小伙:12位同事来自7国,中国构建全球化纽带|我和中国式现代化,值得一提的是,商业养老金是国民养老保险发力的重点,2025年仅商业养老金业务销售金额就达336.17亿元。国民养老保险方面对记者表示,公司是首批入围个人养老金业务试点的机构,截至2025年11月底,累计有33款产品入池。,乐动力体育网页登陆,新锦江客服,九游娱乐。
责编:土门乡
审核:赵楠楠
责编:克里斯-斯卡莱












