全球首个，最接近原版DeepSeek开源复现来了，R1四个月狂飙26倍-灵析社区

近日，来自SGLang、英伟达等机构的联合团队发了一篇技术报告，展示了他们在短短4个月内，通过SGLang推理优化，使DeepSeek-R1在H100上的性能提升了26倍，接近官方数据。 DeepSeek-R1的优化使其性能媲美并超越美国最顶尖的闭源AI模型，在全球AI圈产生了深远影响。 "Image 1" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_c36117253cd147a28ba570e3733e47ce@46958_oswg624380oswg799oswg532_img_000.jpg) 团队利用SGLang推理优化，使得DeepSeek-R1在96块H100 GPU上实现了每秒52.3k输入token和22.3k输出token的吞吐量，显著提高了吞吐量并降低了成本。 "Image 2" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_9302c20a28ee46af98a8713ca255652b@46958_oswg162297oswg1080oswg869_img_000.jpg) 在此过程中，团队也分享了他们的并行设计、优化方法，以及深度优化策略，尤其是在处理复杂的DeepSeek架构时，利用专门的并行化策略提升了性能和内存效率。 "Image 3" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_6b71658388c442d1ba49fe1344b2223d@46958_oswg238788oswg1080oswg362_img_000.jpg) 此外，团队还提出了基于DeepEP的专家并行、DeepGEMM矩阵优化，以及双batch重叠技术，以减少延迟和优化性能。 "Image 4" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_cbc485b2a7f948febf3a2f84733c522b@46958_oswg306847oswg1080oswg527_img_000.jpg) 通过这些创新的优化，DeepSeek的开源实现不仅使吞吐量接近官方数据，还将成本降至原来的五分之一，标志着开源AI领域的一次重大突破。