开云体育
涨价了!DeepSeek发布V31开云体育官方
不是传说中的DeepSeek-R2,当GPT-5没能惊艳世人时,深度求索还有时间。
根据官方说明,DeepSeek-V3.1最大的技术亮点在于“混合推理架构”,一个模型同时支持思考模式与非思考模式,并在Agent(智能体)能力方面实现重大突破,多项指标相比R1-0528有大幅提升。与此同时,API的上下文窗口亦扩展至128K。
此次升级被视为DeepSeek在AGI(通用人工智能)竞争中的关键一步,也标志着国产大模型间的竞争进入“智能体驱动”阶段。
与传统需要维护多个专家模型的做法不同,DeepSeek-V3.1在单一架构内可同时支持思考模式与非思考模式,用户可通过“深度思考”按钮实现无缝切换,在复杂任务中启用链式推理,在简单任务中快速响应。
据官方数据,DeepSeek-V3.1-Think在多项专业评测中表现突出,在AIME 2025(美国数学邀请赛)、GPQA(研究生级别的谷歌问答基准测试)、LiveCodeBench(面向代码的大规模语言模型的综合无污染评价)等基准测试中与前代模型R1-0528性能持平,但输出token数减少20%~50%,显著降低了推理成本。在非思考模式下,模型也能以更短的输出长度保持同等性能。
值得注意的是,DeepSeek宣布自9月6日起调整API定价并取消夜间优惠。输入价格上,缓存命中时为0.5元/百万tokens,缓存未命中的价格则为4元/百万tokens;输出价格为12元/百万tokens(此前V3为2元/百万tokens和8元/百万tokens,而且0点30分到早上8点30分的夜间段,还能再打对折)。
更值得关注的是,根据官方说明,V3.1使用的UE8M0 FP8精度是针对下一代国产芯片设计的,这可能意味着DeepSeek 在硬件适配方面投入了更多资源,这些成本最终体现在API 价格上。
DeepSeek-V3.1的发布,反映了国产大模型竞争焦点正从“长上下文”转向“智能体能力”。
今年7月,月之暗面发布的Kimi K2是一个拥有万亿参数规模的混合专家(MoE)模型,激活参数32B,并在SWE Bench Verified(代码智能体评估基准)、Tau2(评估 AI Agent 在现实场景中的性能和可靠性)、AceBench(评估大型语言模型在工具使用中的学习能力)等基准性能测试中,均取得开源模型中的SOTA(目前最高水平)成绩。在其官方演示案例中,作为一个基础大模型,Kimi K2迈出了智能体化的第一步,可以帮助用户直接制定旅行计划并预订机票和酒店。
智谱AI在7月28日发布的GLM-4.5系列,也定位为“Agent原生基础模型”,并在8月20日发布了全球首个手机Agent(智能体)AutoGLM2.0,可以帮助用户Agent代理操作,具备推理、代码与多模态的全能能力,同样可以一键订票订咖啡。
DeepSeek-V3.1也表示,自己在Agent能力方面实现了显著突破。在编程智能体测评中,DeepSeek-V3.1在SWE代码修复和Terminal-Bench终端任务测试中表现优异;搜索智能体测评中,在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,DeepSeek-V3.1性能已大幅领先R1-0528。
业内分析认为,随着智能体应用场景的深化,国产大模型或将从“基础能力追赶”进入“垂直领域深耕”阶段,厂商将在推理效率、工具调用生态和成本控制之间找到平衡点。


2025-08-22
浏览次数:
次
返回列表