V4新模型炸场 ,DeepSeek率道而行 ,梁文锋AGI求索定力不改
2026-04-24 21:20:24
每经网
4月24日,DeepSeek-V4新模型正式发布,其亮点包括1M超长上下文、Agent能力等。新模型适配华为等国产芯片,引发关注。英伟达CEO黄仁勋曾称若DeepSeek成果先在华为平台出现,对美国将是糟糕结果。尽管DeepSeek有部分人才流动,但研究阵容仍庞大。DeepSeek表示将秉持长期主义,努力向实现AGI的目标靠近。
每经记者|叶晓丹 每经编辑|廖丹
“不诱于誉,不恐于诽,率道而行,端然正己。”
过去一周,围绕DeepSeek新模型发布、适配华为芯片以及融资消息此起彼伏。4月24日,在市场高预期中,DeepSeek-V4新模型正式发布。
1M超长上下文、Agent 能力、世界知识和推理性能是本次模型亮点,而在模型发布之外,DeepSeek的上述16字表态更像是回应市场诸多舆论的一次价值观宣言。
值得注意的是,尽管此前DeepSeek内部研发人员流动,但从此次发布的节奏和披露的技术作者名单来看,创始人梁文锋AGI求索的定力依旧很稳,DeepSeek表示“我们将始终秉持长期主义的原则理念,在尝试与思考中踏实前行,努力向实现 AGI 的目标不断靠近。”
此前有分析人士认为,DeepSeek-R1在2025年惊艳出圈后,背负着AI大模型“扫地僧”的包袱,V4大模型未必能延续去年出圈的惊喜,但DeepSeek直言要“率道而行”。
更被市场聚焦的一个亮点是,此次DeepSeek-V4新模型适配华为等国产芯片。英伟达CEO黄仁勋4月中旬在一档播客节目中直言“DeepSeek的进步意义重大。要是哪天像DeepSeek这样的成果先在华为平台上出现,那对美国会是非常糟糕的结果。”
靴子落地,国产大模型适配国产半导体迎来了全新AI叙事空间。
浙江浙大网新图灵信息科技有限公司总工程师兼数科事业部总经理杨庆在接受《每日经济新闻》记者采访时表示,DeepSeek-V4的发布,其意义远不止于单一模型参数的跃升,而是一场涉及模型架构、应用范式与底层算力生态的系统性变革。
DeepSeek-V4结构创新,海外开发者热议DeepSeek最新技术报告显示,此次发布的DeepSeek-V4系列的预览版本,包含两款强大的专家混合(MoE)语言模型。
它们分别是参数量为1.6T(激活参数490亿)的DeepSeek-V4-Pro,以及参数量为2840亿(激活参数130亿)的DeepSeek-V4-Flash。
此前DeepSeek官网悄然上线的专家模式,对应的正是此次发布的新模型DeepSeek-V4-Pro,而快速模式则对应DeepSeek-V4-Flash。
两个版本模型数据 图片来源:DeepSeek微信公众号
此次更新的DeepSeek-V4系列新模型的亮点主要表现为拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。
DeepSeek披露的技术报告显示,DeepSeek-V4系列在架构和优化方面实现了多项关键改进。
首先是混合注意力架构,结合压缩稀疏注意力(CSA)与重度压缩注意力(HCA)以提升长上下文效率;
其次是流形约束超连接(mHC),增强传统残差连接;此外还有Muon优化器,实现更快收敛与更高的训练稳定性。DeepSeek使用超过32T多样化、高质量标记对两个模型进行预训练,随后通过完整的后训练流程解锁并进一步提升其性能。
超高上下文效率是此次新模型的亮点之一,DeepSeek方面透露。在百万词元的上下文设置下,DeepSeek-V4-Pro所需的单词元推理FLOPs计算量仅为DeepSeek-V3.2的27%,所需KV缓存空间也仅为其10%。基于这一突破,DeepSeek也同步宣布,从4月24日开始,1M(一百万)上下文将是DeepSeek所有官方服务的标配。
DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化 图片来源:DeepSeek微信公众号
新模型发布后,在国内外开发者社区引发巨大关注。
专注于评估大语言模型(LLM)的排行榜Vals AI在社交媒体表示:“DeepSeek-V4现在是我们Vibe Code Benchmark上排名第一的开源权重模型,而且差距明显。甚至击败了像Gemini3.1Pro这样的前沿闭源模型。”
DeepSeek-V4-Pro性能评分 图片来源:DeepSeek微信公众号
密歇根州立大学理论物理学及计算数学、科学与工程学教授Steve Hsu则从使用体验角度给出判断。他贴出一段让模型推演复杂问题的完整推理轨迹,评价其“在数学和物理方面又快又聪明,最终结果精致且准确”。
英伟达人工智能研究员Rick Lamers看到内部基准测试排名后,评价道“DeepSeek-V4在智能体工程方面的可用性看起来非常高,感觉很棒”。
DeepSeek新模型适配华为芯片,黄仁勋也担心《每日经济新闻》记者注意到,在DeepSeek技术报告提及性能与开源Mega-Kernel:“我们在 NVIDIA GPU和 HUAWEI Ascend NPU平台上验证了该细粒度EP方案。与强大的非融合基线方法相比,该方案在通用推理工作负载中实现了1.50至1.73倍的加速比,在延迟敏感场景(如强化学习部署和高速智能体服务)中加速比最高可达1.96倍。”
此前DeepSeek-V4迟迟未发布,市场有消息称DeepSeek新模型在和华为芯片做适配,从最新DeepSeek技术报告来看,DeepSeek新模型除了适配原有的英伟达芯片外,也在和华为昇腾芯片进行适配。
目前,DeepSeek API已同步上线V4-Pro与V4-Flash。不过,从DeepSeek公布的API接入价格来看,当前V4-Pro接入的成本仍然较高。对此,DeepSeek表示,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。
两个版本模型接入成本 图片来源:DeepSeek微信公众号
谜底揭开,DeepSeek同时适配了英伟达和华为芯片。对DeepSeek和华为芯片的适配,英伟达CEO黄仁勋此前不乏担心。
在4月中旬一期播客访谈中,黄仁勋表示,要是哪天像DeepSeek这样的成果先在华为平台上出现,那对美国会是非常糟糕的结果。黄仁勋认为假设DeepSeek针对华为的架构进行优化,那么对英伟达来说,就处于劣势。
黄仁勋的担心,所为何来?
杨庆在接受每经记者采访时表示,DeepSeek V4的发布,其意义远不止于单一模型参数的跃升,而是一场涉及模型架构、应用范式与底层算力生态的系统性变革。
杨庆分析,从技术层面看,V4新模型带来的百万级上下文窗口以及深度强化的推理规划机制,将从根本上拓展AI处理复杂长程任务的边界。这意味着Agent从“能对话”走向“能办事”的“最后一公里”正在被打通。
从产业生态层面看,V4与国产算力底座的深度适配尤为关键。杨庆表示,若这一适配在生产环境中获得验证,其示范效应将加速“去CUDA化”(即摆脱对英伟达CUDA生态的依赖)进程,推动国产AI芯片从“可用”走向“好用”,并带动上下游的协同成熟。对于全球AI竞争格局而言,这标志着中国大模型产业正迈入以“任务执行效率”和“算力自主生态”为核心竞争力的新赛段。
DeepSeek真的被挖空了?梁文锋定力依然很稳一个不被注意的细节是,DeepSeek-V4的技术报告披露了作者名单。“研究与工程”的作者名单里有近300人,其中有10人显示已经离开了DeepSeek团队。
此前,DeepSeek的人才流动情况备受市场关注。
一度有消息称,DeepSeek正在进行首次外部融资,目的是为了留住那些以股票期权作为薪酬的员工,防止他们被竞争对手挖走。但截至发稿,每经记者尚未确认该消息真实性。
然而,不可否认的是,一鸣惊人的DeepSeek的确存在部分人才流动的情况,但从此次披露的技术报告名单来看,DeepSeek的研究人才依旧阵容庞大。
《每日经济新闻》记者梳理发现,在近一年的人才流动中,影响最大的当属郭达雅的离职。郭达雅于2026年3月正式离开DeepSeek,其后加入字节跳动。
比郭达雅更早离开的是王炳宣,2025年底,王炳宣被腾讯姚顺雨团队挖走。王炳宣是DeepSeek第一代大语言模型DeepSeek LLM的核心作者,此后参与了历代模型的训练工作。
另一位核心成员魏浩然约在2026年春节前后离开。魏浩然是DeepSeek-OCR系列的核心作者,该系列在文档识别与多模态处理方面有着重要布局。截至目前,魏浩然的具体去向尚未公开披露。
在时间线上,近一年内最早离开的核心成员是阮翀。阮翀的离职时间约在2025年上半年,离职后他进入了一段休整期,直到2026年1月才正式官宣加入自动驾驶创业公司元戎启行。
此外,被外界称为“AI天才少女”的罗福莉也在这一轮人才流动中离开了DeepSeek。2025年11月12日,罗福莉正式官宣加入小米,出任小米MiMo大模型负责人。
但另一方面,DeepSeek也在加大人才招聘力度。从释放的岗位来看,DeepSeek正在强化Agent研究人才储备,4月24日发布的一系列招聘岗位中,有不少和Agent相关的岗位。譬如Agent全栈开发工程师、Agent深度学习算法研究员、Agent数据策略工程师等。
杨庆认为,未来三至五年,AI行业的核心演进方向将围绕三个关键词展开:智能体化、软硬协同与可信执行。AI应用形态将从“模型即服务”加速演进为“智能体即生产力”。企业不再满足于获得文本答案,而是期望部署能够自主规划、调用系统、完成闭环任务的数字化劳动力。
其次,软硬协同将成为降本增效的主战场。推理成本已成为商业化的核心约束变量,未来竞争将从算法延伸至芯片指令集、推理框架与模型压缩的全栈效率之争。最后,可信执行将成为规模化部署的前提。当Agent开始操作生产系统、处理隐私数据时,可审计性、安全边界与幻觉治理将从学术议题上升为合规刚需。
然而,国产AI仍在进化之中,DeepSeek在中国AI发展路径中,也仍保有对技术的极致探索精神。谈及DeepSeek创始人梁文锋,网易副总裁、网易智企总经理阮良此前在接受每经记者采访时认为,作为浙大校友,梁文锋身上有着一种极客专注精神,不会因为外界干扰而影响自身的判断和方向。
4月24日,DeepSeek在最后也强调“我们将始终秉持长期主义的原则理念,在尝试与思考中踏实前行,努力向实现AGI的目标不断靠近。”
(实习生张京宝对本文亦有贡献)
封面图片来源:兰素英
【深度解析】DeepSeek-V4终于换上了“中国心”!_哔哩哔哩_bilibili
炸场!DeepSeek V4真来了,到底怎么样实测给你看_哔哩哔哩_bilibili