全球首个,最接近原版DeepSeek开源复现来了,R1四个月狂飙26倍-灵析社区

AI资讯

近日,来自SGLang、英伟达等机构的联合团队发了一篇技术报告,展示了他们在短短4个月内,通过SGLang推理优化,使DeepSeek-R1在H100上的性能提升了26倍,接近官方数据。 DeepSeek-R1的优化使其性能媲美并超越美国最顶尖的闭源AI模型,在全球AI圈产生了深远影响。 "Image 1" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_c36117253cd147a28ba570e3733e47ce@46958_oswg624380oswg799oswg532_img_000.jpg) 团队利用SGLang推理优化,使得DeepSeek-R1在96块H100 GPU上实现了每秒52.3k输入token和22.3k输出token的吞吐量,显著提高了吞吐量并降低了成本。 "Image 2" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_9302c20a28ee46af98a8713ca255652b@46958_oswg162297oswg1080oswg869_img_000.jpg) 在此过程中,团队也分享了他们的并行设计、优化方法,以及深度优化策略,尤其是在处理复杂的DeepSeek架构时,利用专门的并行化策略提升了性能和内存效率。 "Image 3" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_6b71658388c442d1ba49fe1344b2223d@46958_oswg238788oswg1080oswg362_img_000.jpg) 此外,团队还提出了基于DeepEP的专家并行、DeepGEMM矩阵优化,以及双batch重叠技术,以减少延迟和优化性能。 "Image 4" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_cbc485b2a7f948febf3a2f84733c522b@46958_oswg306847oswg1080oswg527_img_000.jpg) 通过这些创新的优化,DeepSeek的开源实现不仅使吞吐量接近官方数据,还将成本降至原来的五分之一,标志着开源AI领域的一次重大突破。

阅读量:228

点赞量:9

收藏量:0