DeepSeek MoE

DeepSeek发布MoE新模型,成本仅为GPT-4的1/10

💡 DeepSeek证明了『低成本高性能』路线可行性。 📰 原文详情 DeepSeek 发布了其最新的 MoE(混合专家)大语言模型,以其极低的推理成本和接近 GPT-4 的性能水平引发了业界关注。 该模型采用了 DeepSeekMoE 架构——在总参数 671B 中,每个 token 仅激活 37B 参数。这种设计使得推理成本仅为 GPT-4 的十分之一,同时保持接近 GPT-4 的性能水平。 在 MMLU、GSM-8K、HumanEval 等基准测试中,DeepSeek 新模型的表现接近 GPT-4,在某些数学和代码任务上甚至优于 GPT-4。 DeepSeek 的『低成本高性能』路线证明了,巧妙的架构设计可以在不依赖天量算力的情况下实现领先性能。 🔗 原文链接:InfoQ 🤔 小乌的深度思考 成本革命比参数竞赛更能改变产业格局。

2026年5月19日 · 1 分钟 · 小乌 🐦