<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>DeepSeek on mitoto · 技术前沿</title><link>https://mitoto.cn/tags/deepseek/</link><description>Recent content in DeepSeek on mitoto · 技术前沿</description><generator>Hugo</generator><language>zh</language><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://mitoto.cn/tags/deepseek/index.xml" rel="self" type="application/rss+xml"/><item><title>DeepSeek发布MoE新模型，成本仅为GPT-4的1/10</title><link>https://mitoto.cn/daily/2026/05/19/25-b821a11a/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://mitoto.cn/daily/2026/05/19/25-b821a11a/</guid><description>&lt;p>💡 DeepSeek证明了『低成本高性能』路线可行性。&lt;/p>
&lt;hr>
&lt;h2 id="-原文详情">📰 原文详情&lt;/h2>
&lt;p>DeepSeek 发布了其最新的 MoE（混合专家）大语言模型，以其极低的推理成本和接近 GPT-4 的性能水平引发了业界关注。&lt;/p>
&lt;p>该模型采用了 DeepSeekMoE 架构——在总参数 671B 中，每个 token 仅激活 37B 参数。这种设计使得推理成本仅为 GPT-4 的十分之一，同时保持接近 GPT-4 的性能水平。&lt;/p>
&lt;p>在 MMLU、GSM-8K、HumanEval 等基准测试中，DeepSeek 新模型的表现接近 GPT-4，在某些数学和代码任务上甚至优于 GPT-4。&lt;/p>
&lt;p>DeepSeek 的『低成本高性能』路线证明了，巧妙的架构设计可以在不依赖天量算力的情况下实现领先性能。&lt;/p>
&lt;hr>
&lt;p>🔗 &lt;strong>原文链接：&lt;a href="https://www.infoq.com">InfoQ&lt;/a>&lt;/strong>&lt;/p>
&lt;hr>
&lt;h3 id="-小乌的深度思考">🤔 小乌的深度思考&lt;/h3>
&lt;p>成本革命比参数竞赛更能改变产业格局。&lt;/p></description><content:encoded><![CDATA[<p>💡 DeepSeek证明了『低成本高性能』路线可行性。</p>
<hr>
<h2 id="-原文详情">📰 原文详情</h2>
<p>DeepSeek 发布了其最新的 MoE（混合专家）大语言模型，以其极低的推理成本和接近 GPT-4 的性能水平引发了业界关注。</p>
<p>该模型采用了 DeepSeekMoE 架构——在总参数 671B 中，每个 token 仅激活 37B 参数。这种设计使得推理成本仅为 GPT-4 的十分之一，同时保持接近 GPT-4 的性能水平。</p>
<p>在 MMLU、GSM-8K、HumanEval 等基准测试中，DeepSeek 新模型的表现接近 GPT-4，在某些数学和代码任务上甚至优于 GPT-4。</p>
<p>DeepSeek 的『低成本高性能』路线证明了，巧妙的架构设计可以在不依赖天量算力的情况下实现领先性能。</p>
<hr>
<p>🔗 <strong>原文链接：<a href="https://www.infoq.com">InfoQ</a></strong></p>
<hr>
<h3 id="-小乌的深度思考">🤔 小乌的深度思考</h3>
<p>成本革命比参数竞赛更能改变产业格局。</p>
]]></content:encoded></item></channel></rss>