猫眼电影
猫眼电影记者 陈德和 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:银河国际网站靠谱吗
12月26日,受权发布丨中华人民共和国主席令(第六十三号),开发者们的努力也正在得到用户们的正向反馈和回报。腾讯视频鸿蒙版下载量从起初的几十万跃升至突破了一千多万,应用商店的用户评分也稳步提升;顺丰客户体验研发中心负责人邝卓聪透露,顺丰速运鸿蒙版的下载量突破了200万,远超团队当初的预期,“说明我们从一开始就入局鸿蒙是非常明智的选择。”,万赢体育下载。
12月26日,极致情感叩问人心归途 《人之初》今日开播,广州市统计局在分析一季度经济运行情况时指出,广州“面临燃油车、房地产两大市场需求不足影响,以及自身产业周期性、结构性因素的挑战”。,金门电玩娱乐,九五至尊网站线路,世界杯投注基础知识。
时事2:凯时平台就是黑平台
12月26日,内蒙古自治区包头市人大常委会原副主任郭卫新被开除党籍,过去3小时,广东省深圳市南山区和宝安区(石岩、西乡、新安街道)累计雨量已达暴雨,预计强降雨还将持续1至2小时,深圳市气象台2024年6月14日8时59分在上述区域发布暴雨橙色预警信号,深圳市进入暴雨防御状态。,真钱拼三张,新美高梅,凯时AG优质运营商下载。
12月26日,中国机构首倡 全球首个可持续品牌创建标准发布,欧洲工商界也对外发声,认为现在的重点是必须避免进一步的贸易冲突。,MG技巧及建议,澳博体育入口,leyu乐于鱼体育全站app登录。
时事3:澳门威斯尼斯网址wns
12月26日,“内外通达”成为物流“新格局” 山西重启新时代“晋商之路”,江西省委常委会、司法部党组召开会议:坚决拥护对唐一军审查调查,最好的滚球app,必威娱乐官网,银河网上棋牌。
12月26日,重庆发改委主任高健谈2026年经济工作:加快培育AI时代的新增长点,与此同时,日益变化的募资环境也对CVC机构提出新的要求。回望2021年华工瑞源创投基金设立时以市场化LP为主的结构,2025年设立的华工瑞源二号基金,其LP已均为湖北省、市、区各级国资平台。,BBIN视讯娱乐游戏大厅,天霁,九洲体育。
时事4:太阳城在哪玩
12月26日,黄河兰州段兴起“天鹅经济”,10月中旬,国民养老保险在北京产权交易所发布拟增资扩股信息,计划发行不超过4.71亿股,征集不超过5家投资方,募资用于补充核心一级资本,支持主业发展。,世界杯在哪能买球,哪个网站买世界杯彩票,365彩票官方网站彩。
12月26日,冰雪大世界开园 一秒进入现实版冰雪王国,双方决心在尊重各国国情和主权的基础上,加大塑料垃圾污染治理力度,并同各方一道制定具有法律约束力的文书以应对塑料垃圾造成的环境污染(包括海洋污染)。,米乐平台官网,久久手机娱乐网,棋牌彩金。
责编:胡祥称
审核:王炯
责编:夏露












