字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开,4 月 17 日开放接口-灵析社区

AI资讯

字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开,4月17日开放接口。该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,具有显著的推理成本优势,相比于 DeepSeek R1 推理成本降低了50%。 模型性能表现: - **专业领域:**数学推理(AIME 2024 得分 86.7,追平 OpenAI o3-mini-high),编程竞赛(Codeforces pass@8 达 55.0%,接近 Gemini 2.5 Pro),科学推理(GPQA 得分 77.3%,接近 o3-mini-high)。 - **通用任务:**在人类评估中,Seed-Thinking-v1.5 的表现超越 DeepSeek R1 8%。 - **成本优势:**推理成本相比 DeepSeek R1 降低 50%,实现性能与效率的平衡。 数据体系:融合可验证与创意性数据 针对推理与生成任务的不同需求,优化了数据处理策略: - **可验证数据:**通过百万级数据三重清洗,保留了10万道高难度题目,确保模型输出真实推理过程。 - **非可验证数据:**基于豆包1.5 Pro训练集,优化生成质量,剔除低价值样本,采用两两对比奖励法。 奖励模型:双轨体系校准训练方向 提出双轨奖励机制,兼顾“对错分明”与“见仁见智”任务: - **可验证任务:**从字符匹配升级为推理步骤逐行对比,确保模型“奖励欺骗”问题解决。 - **非可验证任务:**引入pairwise对比训练,通过千万次“AB测试”,捕捉人类对创意、情感等的隐性偏好。 训练方法:监督精调 + 强化学习双阶段优化 Seed-Thinking-v1.5采用全链路训练: - **监督精调:**基于40万高质量实例,确保模型“像人类一样思考”。 - **强化学习:**通过三重数据引擎,解决训练不稳定、长链推理断层等问题。 训练框架:支撑 20B MoE 的底层架构 为应对20B MoE的复杂训练需求,优化了底层架构: - **HybridFlow 编程模型:**支持算法快速探索与分布式并行运行。 - **流式推理系统:**提高训练速度并提升稳定性。 - **三层并行架构:**基于张量、专家和序列并行,优化GPU算力利用率。

阅读量:266

点赞量:19

收藏量:0