3月24日晚间,DeepSeek在官方社群中发布重要通告,DeepSeek-V3模型已完成小版本升级,目前版本号为DeepSeek-V3-0324,用户登录官方网页、APP、小程序进入对话界面后,关闭深度思考即可体验。API接口和使用方式保持不变。
DeepSeek称,新版V3模型借鉴DeepSeek-R1模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过GPT-4.5的得分成绩。
同时,新版V3模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。
值得注意的是,根据DeepSeek透露的数据,DeepSeek-V3大模型训练仅用了约两个月的时间。
总体来看,此次升级虽为小版本迭代,但多项核心能力已逼近甚至超越 GPT-4.5 等闭源模型,成为开源领域的重要里程碑。
核心升级亮点
推理能力跨越
借鉴 DeepSeek-R1 模型的强化学习技术,新版 V3 在数学推理(MATH-500、AIME 2024)、代码任务(LiveCodeBench)等评测中得分超越 GPT-4.5 预览版,尤其在复杂逻辑问题解决中展现出更精准的思维链。开发者实测显示,其物理运动模拟能力已接近 Claude-3.7 水平。
代码生成效率与质量双升
HTML 等前端开发任务中,V3-0324 生成的代码可用性更高,支持自适应布局和动效设计,甚至可完成完整产品着陆页开发。实测案例中,模型在数分钟内生成 700 余行无错误代码,且视觉效果更贴近专业设计标准。
中文场景深度优化
中文写作任务强化中长篇文本创作能力,结合联网搜索功能,报告生成类指令的输出内容更详实、排版更清晰。在角色扮演、问答闲聊等场景中,响应速度与自然度同步提升。
开源生态持续开放
模型参数约 660B(部分渠道称 671B MoE 架构),开源版本上下文长度达 128K(网页端 / API 提供 64K),权重文件及技术报告通过 Hugging Face 平台免费开放,采用 MIT 许可允许商业使用及模型蒸馏。
技术架构与部署
架构优化:基于原有 Base 模型改进后训练方法,未改变 660B/671B 参数规模,但通过强化学习提升任务针对性表现。
性能平衡:关闭 “深度思考” 模式可显著提升响应速度,适合简单问答、代码片段生成等实时性需求场景。
兼容性:API 接口与调用方式保持不变,现有集成代码(如model=’deepseek-chat’)无需调整,企业用户可无缝迁移。
行业影响与展望
此次升级使 V3-0324 成为非推理模型领域的标杆,其开源特性为开发者提供了低成本高性能的技术底座。海外评测机构 Artificial Analysis 指出,该版本的突破或预示 DeepSeek 后续 R2 模型将带来更大飞跃。
随着政策支持与技术迭代加速,以 DeepSeek 为代表的国产大模型正逐步缩小与国际头部产品的差距,为 AI 应用创新提供新动能。
资本市场方面,今天早盘华为欧拉、语音技术等AI应用股强势反弹!
未经允许不得转载:德讯证券顾问 » DeepSeek重大更新,AI应用利好来了
评论前必须登录!
登陆 注册