猫眼电影
猫眼电影记者 格拉纳达 报道首次登录送91元红包
机器之心发布
机器之心编辑部
今年,文本生成领域迎来了从自回归(Auto-Regressive)向扩散语言模型(Diffusion LM)的重要范式转变。然而,长序列训练的不稳定性一直是制约扩散模型发展的核心痛点。上下文窗口限制使得模型在处理复杂的数学推理、编程任务,尤其是需要深度推理的「慢思考」场景时,显得捉襟见肘。
华为近日正式发布 openPangu-R-7B-Diffusion,基于openPangu-Embedded-7B 进行少量数据(800B tokens)续训练,成功将扩散语言模型的上下文长度扩展至 32K
在「慢思考」能力的加持下,该模型在多个权威基准中创下了 7B 参数量级的全新 SOTA 纪录:
多学科知识(MMLU-Pro):超越 16B 参数量的 LLaDA 2.0-mini-preview22%数学推理(MATH):得分,大幅领先同类模型。代码生成(MBPP):得分,展现出卓越的逻辑泛化能力。
Base模型链接:https://ai.gitcode.com/ascend-tribe/openPangu-7B-Diffusion-Base慢思考模型链接:https://ai.gitcode.com/ascend-tribe/openPangu-R-7B-Diffusion
接下来,我们将深入解析这款模型背后的技术革新。
1. 架构创新:
前文因果注意力掩码,自回归到 BlockDiffusion 的无缝迁移
openPangu-R-7B-Diffusion 在注意力机制上并未沿用传统扩散模型(如 LLaDA)的全注意力(Full Attention),也未采用 SDAR 或 Fast-dLLMv2 的分块掩码(Block Attention),而是创新性地融合了自回归的前文因果注意力掩码(Causal Attention Mask)。
这一设计从根本上解决了架构适配难题:
消除适配壁垒:以往将自回归模型适配至扩散模型,往往需要 Attention Mask Annealing 或 Shift Operation 等复杂操作来弥合差异。而 openPangu-R-7B-Diffusion 通过保留前文的因果注意力特性,使得模型仅需从「预测 Next Token」转变为「预测 Next Block 中的 Mask Token」,极大地降低了适配成本。兼容性最大化:该设计让模型能够自然继承自回归模型的预训练知识,为长窗口训练打下坚实基础。
2. 训练与推理:双模式解码与效率倍增
在训练策略上,openPangu-R-7B-Diffusion 延续了 BlockDiffusion 的思路(拼接带掩码的 Block 与无掩码的 Context),但进行了关键优化:
Context 利用率 100%:传统方法往往忽略无掩码 Context 部分的 Loss 计算,导致一半的数据被浪费。openPangu-R-7B-Diffusion 则将这部分数据用于标准的自回归 Next Token Prediction 训练。双模式解码:这种训练方式赋予了模型「自回归 + 扩散」的双重解码能力。用户可以通过不同的采样设置,灵活权衡生成质量与速度。极致性能:模型完整保留了变长推理与 KV-Cache 特性。在并行解码模式下,其速度最高可达自回归解码的2.5 倍
可视化实测:亲眼见证「慢思考」与扩散生成的融合
为了更直观地展示 openPangu-R-7B-Diffusion 的工作机制,我们对模型的推理过程进行了可视化处理。
在输入一道经典的数学逻辑推理题(Claire 的煎蛋问题)后,我们可以清晰地观察到扩散语言模型的独特生成方式:模型并非像传统自回归模型那样「逐词蹦出」,而是在 4 个生成步数(Generation Steps)内,并行地将多个 [MASK] 噪声逐步去噪还原为
、Claire、makes 等清晰的语义 Token。
图中首位的Token 尤为关键,它标志着模型正在启动我们前文提到的 「慢思考」模式。这种结合了扩散并行生成与深度思维链(Chain-of-Thought)的能力,正是 openPangu-R-7B-Diffusion 能够在数学和编程基准上大幅超越同类模型的核心原因。
结语:开启扩散语言模型的新篇章
openPangu-R-7B-Diffusion 的发布,不仅仅是一个新模型的开源,更是对「扩散模型能否处理复杂长文本」这一难题的有力回应。凭借其创新的因果注意力掩码架构,它成功证明了扩散模型不仅可以「快」(并行解码),更可以「深」(32K 长文与慢思考)。
值得一提的是,openPangu-R-7B-Diffusion 的训练、推理及评测全流程均在昇腾 NPU集群上完成,有力证明了国产算力在以前沿扩散语言模型领域的强劲实力。
时事1:足彩网竞彩官网
12月27日,澳大利亚警方说,悉尼邦迪滩传出枪声,日前,《辽宁省国土空间规划(2021—2035年)》获批,规划提出,“夯实拓展哈大对外开放通道,预留渤海湾跨海通道大连端引线”。,多宝直播视讯。
12月27日,香港第59届工展会开幕 预计吸客约130万人次,据上游新闻去年10月报道,“T3出行”首次在成都、青岛、南京等地招募千名60-65周岁的银发司机,提供入职引导、专项培训等。相关负责人称,这样的司机经验丰富,再就业愿望强烈,希望通过定向招聘,为有求职需求的老人提供就业机会,也给打破就业年龄限制带来参考。,网赌最正规的平台,威尼斯人官方网页版,365体育正规首页。
时事2:365体育快速充值
12月27日,剑指一流券商,中金公司换股吸收合并东兴证券、信达证券预案出炉,《华尔街日报》称,许多无人机操控员目前正在囤积大疆无人机和零部件,并向他们所在区的国会议员和白宫发出“最后的信件”,表示他们没有“西方的替代品”,且其与中国制造无人机有关的生计可能受到严重影响。,365手机下载,优德体育app下载,单机炸金花免费版。
12月27日,危险货物运输车辆安全技术条件新国标明年7月1日施行 对标国际标准 助力“中国造”卖全球,昨天(8日),中国载人航天工程办公室公布了神舟十五号航天员乘组,为执行首次出舱任务开展各项准备的画面。我们一起通过空间站上的定向摄像机和航天员的手持摄像机,来看“圆梦乘组”是如何准备出舱任务的。,世界杯体彩网上投注,欧冠直播表,亚美体育平台注册。
时事3:金百利国际娱乐真人游戏
12月27日,【同心声影】统一战线成员缅怀历史:凝聚人心传递和平信念力量,作为活动主办方代表,联合国工业发展组织投资和技术促进办公室[中国·北京](英文简写: ITPO BEIJING)主任武雅斌在现场致辞时表示,当前汽车作为全球价值链中最具代表性的产业,正处于动力变革、功能变革和生产方式变革三大变革的交汇点。面对这一产业格局重塑的大机遇和大挑战,中国自主品牌和国际汽车领军企业间的对话与合作,对世界汽车产业的健康与可持续发展至关重要。,滚球平台推荐,天九国际手机版首t900,捕鱼达人千炮版官方正版下载安装。
12月27日,抓好能下蛋的“这只鸡”,针对AML的克立福替尼公司预计2027年获批上市,公司和三生制药达成授权协议,强强联合。后续管线丰富:甲磺酸莱洛替尼(III期),治疗食管癌。HEC53856(II期),治疗化疗贫血。HEC201625(即将IND),口服PD-L1小分子,且公司持续布局新的技术领域,包括ADC、TCE等。,滚球王,米乐体育m6,沙巴体育app进不去。
时事4:大发888最新客户端
12月27日,香港廉署就大埔宏福苑维修工程贪污调查再拘3人,“人们购买大疆无人机不是因为它是中国产的,而是因为它是可用的、价格实惠且性能优异。”雷维迪奥说。,bbin新体育开户,足球外围盘口网官网,AG平台网址。
12月27日,老豪门在左,新力量在右——世界杯迈进全球时代,2021年11月,邓可的国任保险总裁任职资格获得监管批复,成为该公司通过市场化方式招聘的第二位总裁,次年其还兼任该公司合规负责人。,mgm在线官网,12bet官网,凯发娱乐手机版登。
责编:徐文宇
审核:周常清
责编:胡律师












