DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大
2025-12-01 21:48:11 来源:第一财经
12月1日晚,DeepSeek推出两款新模型,分别是DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力在全球处于领先地位。
两款模型定位各异。DeepSeek-V3.2旨在平衡推理能力与输出长度,适用于日常使用,比如问答场景以及通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp,此次是正式版更新。在公开推理测试里,V3.2达到了GPT-5的水准,仅略低于谷歌的Gemini3 Pro。
DeepSeek-V3.2-Speciale是此次的重点,目标是“将开源模型的推理能力发挥到极致,探索模型能力的界限”。据介绍,Speciale是V3.2的长思考增强版,还融合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力。
据DeepSeek公布的数据,Speciale在多个推理基准测试中超越了谷歌最先进的Gemini3 Pro。具体而言,在美国数学邀请赛、哈佛MIT数学竞赛、国际奥林匹克数学竞赛等测试中,V3.2-Speciale均超过了Gemini3 Pro,但在编程、理工科博士生测试中稍逊于谷歌。
同时,Speciale模型在IMO(国际数学奥林匹克)、ICPC World Finals(国际大学生程序设计竞赛全球总决赛)及IOI(国际信息学奥林匹克)中斩获金牌。其中,ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。
尽管取得了这些成果,但在技术报告中,DeepSeek承认,与Gemini3 Pro等前沿闭源模型相比,自家模型仍存在一定局限。首先,V3. 的世界知识广度仍落后于领先的专有模型,其次在令牌(Token)效率方面,V3.2通常需要更多令牌才能达到像Gemini3 Pro这样的模型输出质量。在解决复杂任务方面也不如前沿模型。
DeepSeek称,团队计划未来通过增加预训练计算量来填补知识空白,并专注于优化模型推理链的智能密度以提升效率,进一步改进基础模型和训练后方案。
值得一提的是,在技术报告中,DeepSeek还提及当前开源与闭源模型的差距在拉大。
DeepSeek表示,推理模型的发布是大模型发展的关键转折点,推动了整体性能的大幅提升。自这一里程碑事件以来,大模型能力快速发展。然而,过去几个月出现了明显分化:尽管开源圈持续进步,但闭源专有模型如海外谷歌、OpenAI、Anthropic的性能增长速度显著更快。
“闭源模型与开源模型之间的性能差距未缩小,反而日益扩大,专有系统在复杂任务中优势愈发明显。”DeepSeek认为,其中有三个关键缺陷。
一方面,在架构层面,对标准注意力机制的过度依赖严重限制了长序列处理的效率;其次,在资源分配方面,开源模型在后训练阶段的计算投入不足,限制了模型在高难度任务上的表现;最后,在AI智能体领域,开源模型在泛化能力和指令遵循能力上与专业模型相比存在明显差距,影响实际部署效果。
为突破这些限制DeepSeek在9月底发布实验版V3.2-Exp时,提出了稀疏注意力机制(DSA),期望大幅降低计算复杂度。经过两个月实验后,DeepSeek确认了稀疏注意力机制的有效性,并表示,在不牺牲长上下文性能的前提下,团队解决了关键的计算复杂性问题。
此次发布的两款模型均引入了这一机制。据DeepSeek称,除在多个推理基准测试中V3.2性能大幅提升外,在智能体场景中,V3.2也成为一种具成本效益的替代方案,不仅缩小了开源模型与前沿专有模型之间的性能差距,成本也显著降低。
目前,DeepSeek的官方网页端、App和API均已更新为正式版DeepSeek-V3.2,但增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究。
在海外社媒上,有网友认为,DeepSeek此次发布是了不起的成就,“匹配GPT-5和Gemini3 Pro的开源模型出现了,差距正式消除。”DeepSeek不断证明,严谨的工程设计可超越单纯的参数规模。但如DeepSeek所述,我们仍需正视开源与闭源在整体性能上的差距,不断突破开源的界限。
(文章来源:第一财经)
原标题:DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大
郑重声明:信查查发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
