(8分钟深度揭秘)世界杯线上买球网最新版v9.479.4018

首页 >新闻 >社会新闻

华为新开源！扩散语言模型突破32K上下文，还解锁了「慢思考」

2025-12-25 04:21:48

来源：

猫眼电影

作者：

龙长生

手机查看

　　猫眼电影记者刘某遂报道首次登录送91元红包

机器之心发布

机器之心编辑部

今年，文本生成领域迎来了从自回归（Auto-Regressive）向扩散语言模型（Diffusion LM）的重要范式转变。然而，长序列训练的不稳定性一直是制约扩散模型发展的核心痛点。上下文窗口限制使得模型在处理复杂的数学推理、编程任务，尤其是需要深度推理的「慢思考」场景时，显得捉襟见肘。

华为近日正式发布 openPangu-R-7B-Diffusion，基于openPangu-Embedded-7B 进行少量数据（800B tokens）续训练，成功将扩散语言模型的上下文长度扩展至 32K

在「慢思考」能力的加持下，该模型在多个权威基准中创下了 7B 参数量级的全新 SOTA 纪录：

多学科知识（MMLU-Pro）：超越 16B 参数量的 LLaDA 2.0-mini-preview22%数学推理（MATH）：得分，大幅领先同类模型。代码生成（MBPP）：得分，展现出卓越的逻辑泛化能力。

Base模型链接：https://ai.gitcode.com/ascend-tribe/openPangu-7B-Diffusion-Base慢思考模型链接：https://ai.gitcode.com/ascend-tribe/openPangu-R-7B-Diffusion

接下来，我们将深入解析这款模型背后的技术革新。

1. 架构创新：

前文因果注意力掩码，自回归到 BlockDiffusion 的无缝迁移

openPangu-R-7B-Diffusion 在注意力机制上并未沿用传统扩散模型（如 LLaDA）的全注意力（Full Attention），也未采用 SDAR 或 Fast-dLLMv2 的分块掩码（Block Attention），而是创新性地融合了自回归的前文因果注意力掩码（Causal Attention Mask）。

这一设计从根本上解决了架构适配难题：

消除适配壁垒：以往将自回归模型适配至扩散模型，往往需要 Attention Mask Annealing 或 Shift Operation 等复杂操作来弥合差异。而 openPangu-R-7B-Diffusion 通过保留前文的因果注意力特性，使得模型仅需从「预测 Next Token」转变为「预测 Next Block 中的 Mask Token」，极大地降低了适配成本。兼容性最大化：该设计让模型能够自然继承自回归模型的预训练知识，为长窗口训练打下坚实基础。

2. 训练与推理：双模式解码与效率倍增

在训练策略上，openPangu-R-7B-Diffusion 延续了 BlockDiffusion 的思路（拼接带掩码的 Block 与无掩码的 Context），但进行了关键优化：

Context 利用率 100%：传统方法往往忽略无掩码 Context 部分的 Loss 计算，导致一半的数据被浪费。openPangu-R-7B-Diffusion 则将这部分数据用于标准的自回归 Next Token Prediction 训练。双模式解码：这种训练方式赋予了模型「自回归 + 扩散」的双重解码能力。用户可以通过不同的采样设置，灵活权衡生成质量与速度。极致性能：模型完整保留了变长推理与 KV-Cache 特性。在并行解码模式下，其速度最高可达自回归解码的2.5 倍

可视化实测：亲眼见证「慢思考」与扩散生成的融合

为了更直观地展示 openPangu-R-7B-Diffusion 的工作机制，我们对模型的推理过程进行了可视化处理。

在输入一道经典的数学逻辑推理题（Claire 的煎蛋问题）后，我们可以清晰地观察到扩散语言模型的独特生成方式：模型并非像传统自回归模型那样「逐词蹦出」，而是在 4 个生成步数（Generation Steps）内，并行地将多个 [MASK] 噪声逐步去噪还原为

、Claire、makes 等清晰的语义 Token。

图中首位的Token 尤为关键，它标志着模型正在启动我们前文提到的「慢思考」模式。这种结合了扩散并行生成与深度思维链（Chain-of-Thought）的能力，正是 openPangu-R-7B-Diffusion 能够在数学和编程基准上大幅超越同类模型的核心原因。

结语：开启扩散语言模型的新篇章

openPangu-R-7B-Diffusion 的发布，不仅仅是一个新模型的开源，更是对「扩散模型能否处理复杂长文本」这一难题的有力回应。凭借其创新的因果注意力掩码架构，它成功证明了扩散模型不仅可以「快」（并行解码），更可以「深」（32K 长文与慢思考）。

值得一提的是，openPangu-R-7B-Diffusion 的训练、推理及评测全流程均在昇腾 NPU集群上完成，有力证明了国产算力在以前沿扩散语言模型领域的强劲实力。

时事1：伟德1949手机版

12月25日,民企奋进自贸港：“立足海南、服务全球已从愿景变为现实”,2021年10月，在接受组织谈话时，靳东矢口否认了与李某某等商人老板之间存在不正当经济利益关系，并多次表示其所讲属实，愿承担一切责任和后果。但几十天后，被采取留置措施的靳东便将自己的严重违纪违法事实和盘托出。因亲清不分，靳东最终倒在了不法商人的“糖衣炮弹”之下，成为金钱的俘虏，走向了腐化堕落。,东方支付平台。

12月25日,交通运输部：2026年将在全国高速公路服务区建设1万个以上充电枪,《华盛顿邮报》主持人询问斯托尔滕贝格，中国是否有可能在结束俄乌冲突的谈判中发挥外交作用时，斯托尔滕贝格表示，中国“尚未谴责俄罗斯”，但他欢迎两国领导层的对话，“因为欧洲发生的事情关系到亚洲，而亚洲发生的事情关系到欧洲”。斯托尔滕贝格同时宣称，如果“普京获胜”，所有人都会“变得脆弱”。,beplay体育app苹果,亚慱体育app官方下载534,体育平台app有哪些。

时事2：完美365体育app下载安装

12月25日,中国科技馆举办2025年国际志愿者日主题系列活动,面壁智能 CEO 李大海表示，“感谢各投资方对面壁的认可与支持。我们致力于携手产业链合作伙伴，让高效端侧大模型运行在海量终端之上，为广大消费者带来创新、普惠的智能体验。在大模型行业赋能的加速时刻，处于国家政策利好、技术加快迭代、消费场景勃发的新发展阶段，面壁在本次融资后，必将乘势而上，加码投入，持续领跑端侧 AI 市场。”,威尼斯人网址正网,bob登陆手机版,澳博控股官网。

12月25日,AI-DimSum多模态粤语语料库平台发布,报道称，布林肯进一步称，“这是一个不断发展的过程，关于我们认为乌克兰需要什么，我们认为在使用中最有效的是什么，我们将持续作出判断。”,官方体育彩票怎么买,PS玩星电子双喜,世界杯体育平台。

时事3：永乐国际

12月25日,“从迁陵到番禺——简牍中的双城故事”展览在广州开幕,另外，关税法草案二审稿增加规定，海关发现多征税款时，应当及时通知纳税人办理退还手续。另外，草案此前也明确，将纳税人发现多缴税款时申请退税的期限由1年延长为3年，并明确海关发现多征税款的应当及时退还纳税人。,威客电竞,鱼丸游戏森林舞会奔驰宝马,大三元平台。

12月25日,交通运输部：预计2025年中国跨区域人员流动量超660亿人次,每经AI快讯，12月23日，居然智家公告，公司于2025年12月22日召开第十二届董事会第一次会议，选举王宁先生为董事长，任期三年，自本次董事会审议通过之日起至第十二届董事会任期届满之日止。,吉祥体育坊手机登录,聚星登陆,万博水晶宫。

时事4：bt365手机平台

12月25日,山西迎今冬首场降雪：雪落古城大佛披银装,今年的佛山政府工作报告中也提到，佛山存在“科技创新能力滞后于产业发展，新兴产业尚未成长为支柱力量，产业形态亟待优化” 等问题。,必赢贵宾会网址大全,万博手机客户端首页设置,梭哈网页游戏。

12月25日,辽宁消防274检查组夜查高层建筑重大火灾隐患,辽宁队此番客场远征，郭艾伦随队来到东莞，并参加了球队的训练。不过，这场比赛他依然没有复出。末节还剩4分多钟时，辽宁队老将李晓旭在无对抗中受伤，他单脚跳到场边后，在郭艾伦等人的搀扶下回到更衣室。,最新体球网即时比分,明牌牛牛在什么情况抢庄,澳门金沙巴黎人官网。

【爆火一年后，他把秦腔从西北县城唱到上海陆家嘴】

【湖北利川推动算力建设加快打造“武陵算谷”】

责编：诺瓦拉

审核：何超莲

责编：屈家喜