猫眼电影
猫眼电影记者 姜宣凭 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:ag捕鱼王平台
12月23日,园来如此丨大降温+流感高发期,怎么防?,——高度评价2022-2023年中俄体育交流年成果,继续务实推进体育领域合作,深化各项目交流。中方高度评价俄方2024年在喀山市举办的首届“未来运动会”,支持俄方举办金砖国家运动会。双方反对将体育政治化,反对任何以国籍、语言、宗教、政治或其他信仰、种族以及社会出身为由将体育作为歧视运动员的工具,呼吁国际社会按照奥林匹克精神和原则开展平等的国际体育合作。,足球世界杯在哪里投注。
12月23日,军国主义,借尸还魂?|新漫评,对西北城市来说,机场的作用尤为重要。西北不沿海,也没有内河航运。依托铁路和机场打造枢纽,形成开放门户,无论对区域还是全国而言,都具有经济与战略的双重意义。,E世博直播视讯,升博下载,博乐棋牌怎么玩。
时事2:大发888登陆
12月23日,预计“十五五”时期,全国小微型客车短租市场规模年均增长15%左右,战略转型的漫长征程:虽然康养生态的蓝图绘就,但短期内难以改变传统业务“一条腿走路”的局面。从销售保单到提供“产品+服务”的综合解决方案,需要巨大的资源投入、时间沉淀和跨行业整合能力,这对公司的战略耐心和执行能力构成了严峻挑战。,必发365电子游戏网址,bbin登录官网,MG电子注册。
12月23日,海内外创作者以AI绘非遗 共话中缅胞波情,“目前,中国对欧洲的汽车出口量占中国汽车总出口量的约40%,中国对欧盟地区的汽车出口量在中国汽车总出口量的占比不到30%。”在洪杨看来,目前欧盟加征关税对中国汽车企业出口有一定的压力。如果加征关税实施,后续可能会导致车企去欧洲、东南亚建厂,绕过中国本土出口的限制;从供应链或者当地渠道商角度来看,可能会存在一些博弈,通过降本等方式调整在欧洲终端市场的售价,从而降低影响。,万能娱乐捕鱼什么时候好打,澳门皇冠下载,世界杯投注正规吗。
时事3:2026世界杯押注网站
12月23日,中国创造学会文化创意产业专委会在澳门成立,2019年12月,国任保险进行更名后首次增资扩股,向3名新进股东和2名现有股东共增发股份10.07亿股,该公司注册资本增至40.07亿元。,开博体育APP首页,AG亚洲游戏国际平台,巴黎人贵宾会下载端。
12月23日,给学生放“雪假”,为冰雪经济加“热度”,对于刚刚上任董事会主席的唐家成来说,目前面临诸多挑战,恒生指数已连跌4年,港交所IPO上市数量和融资规模暂时也处在低谷,近年流动性不足、股权融资市场不景气一直被市场诟病。,乐博登录官网,黄冠现金,IM体育官网下载。
时事4:世界杯足彩网上投注
12月23日,西藏那曲市双湖县发生5.0级地震 震源深度10千米,数据显示,一季度,温州、徐州、大连、唐山GDP分别为2152.2亿元、2118.35亿元、2103.5亿元、2006.5亿元,同比分别增长6.1%、6.9%、5.8%、6.6%。相比去年一季度,四座城市GDP增量分别达到123.1亿元、102.1亿元、70.6亿元、76.1亿元。,新宝gg手机版登录,亚冠2020赛程,世博体育软件官网。
12月23日,无人机群飞行规划员、烧烤料理师……这些新职业带来哪些变化和新机遇?,在此之前,赣锋锂业、天齐锂业也已经先后向业内释放出了乐观预期。两家全球性行业龙头普遍认为,受益于可再生能源并网、商用重卡等电动化设备等领域的需求增长,2026年全球锂需求有望增长至200万吨左右,基本达到供需平衡。,威尼斯人手机版登录网页,m6在线登录,千亿平台网址。
责编:许愿星
审核:司欣
责编:顾源












