智能网站管理系统：新增支持DeepSeek-V3模型接口

874 阅读 0 评论 0 点赞

近日，量化巨头幻方量化的子公司深度求索（DeepSeek）发布了全新系列模型DeepSeek-V3，并同步开源。这一事件迅速引爆AI圈，DeepSeek-V3不仅霸榜开源模型，更在性能上与全球顶尖闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。

更令人瞩目的是，该模型的训练成本仅约558万美元，仅为GPT-4o的二十分之一，资源运用效率极高。国外独立评测机构Artificial Analysis测试评价其“超越了迄今为止所有开源模型”。

2024年12月26日，深度求索官方微信公众号推文称，旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。该国产大模型性能对齐海外领军闭源模型，多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

在百科知识、长文本、代码、数学及中文能力上的表现，DeepSeek-V3超越其他模型，尤其是在数学上，在美国数学竞赛（AIME 2024, MATH）和全国高中数学联赛（CNMO 2024）上，DeepSeek-V3大幅超过了所有开源闭源模型。

更重要的是，深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3，仅花费了约558万美元。其训练费用相比GPT-4o等大模型要少得多。Open AI CEO山姆·奥特曼曾表示，GPT-4o的训练成本大约1亿美元，未来训练大模型的成本将高于10亿美元。尚未完成训练的GPT-5大模型，为时约半年的一轮训练就消耗了大约5亿美元。