DeepSeek 官方近日发布了《DeepSeek-V3 / R1 推理系统概览》文章,介绍了如何通过大规模跨节点专家并行(Expert Parallelism / EP)来优化系统性能,提升吞吐量并降低延迟。 主要优化措施 1. 专家并行:通过使用大规模跨节点的专家并行策略,DeepSeek-V3 / R1 实现了更大的 batch size,提供了更大的吞吐和更低的延迟。特别是在 Prefill 和 Decode 阶段,采用了不同的并行策略以提高系统性能。 2. 双 batch 重叠:在 Prefill 和 Decode 阶段,DeepSeek 使用双 batch 重叠技术,交错计算和通信以减少通信开销,确保计算效率最大化。 3. 负载均衡:在多机多卡的并行计算中,DeepSeek 采用了负载均衡机制,确保每个 GPU 的计算负载和通信负载均衡,避免性能瓶颈。 参考架构图 "架构图" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/8eb7f925-bba3-4bf7-b90f-23cc613c8f25.jpg) 性能统计 DeepSeek V3 和 R1 推理系统的吞吐量数据如下: - 输入 token 总数:608B,其中 342B(56.3%)命中 KVCache 缓存。 - 输出 token 总数:168B,输出速率为 20~22 tps。 - 每台 H800 的吞吐量:Prefill 阶段约 73.7k tokens / s,Decode 阶段约 14.8k tokens / s。 定价信息 DeepSeek R1 的定价如下: - $0.14 / 百万输入 tokens(缓存命中) - $0.55 / 百万输入 tokens(缓存未命中) - $2.19 / 百万输出 tokens。 注意:夜间服务有折扣,实际收入有所不同。 "性能图" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/9bc244c7-3f2c-48ba-ac28-25ae95eeedbb.jpg) 广告声明:文内包含外部跳转链接,仅供参考。
阅读量:584
点赞量:13
收藏量:0