英伟达发布了名为 Llama-3.1-Nemotron-Ultra-253B-v1 的新模型,这是一款具有 2530 亿参数的大型语言模型,专注于推理能力、架构效率和生产准备度的重大突破。 "Image 6" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/506aa3d3-ad5a-4408-8835-43281c854469.jpg) 随着 AI 在数字基础设施中的普及,企业和开发者需要在计算成本、性能与扩展性之间找到平衡。大型语言模型(LLM)的快速发展提升了自然语言理解和对话能力,但其庞大规模常导致效率低下,限制大规模部署。 Llama-3.1-Nemotron-Ultra-253B-v1(简称 Nemotron Ultra)针对这一挑战,基于 Meta 的 Llama-3.1-405B-Instruct 架构,专为商业和企业需求设计,支持从工具使用到多轮复杂指令执行等任务。 Nemotron Ultra 采用仅解码器的密集 Transformer 结构,通过神经架构搜索(NAS)算法优化,创新之处在于采用跳跃注意力机制,在部分层中省略注意力模块或替换为简单线性层。此外,前馈网络(FFN)融合技术将多层 FFN 合并为更宽但更少的层,大幅缩短推理时间,同时保持性能。模型支持 128K token 的上下文窗口,适合高级 RAG 系统和多文档分析。 在部署效率上,Nemotron Ultra 也实现了突破,能够在单 8xH100 节点上运行推理,显著降低数据中心成本,提升企业开发者的可及性。英伟达通过多阶段后训练进一步优化模型,包括在代码生成、数学、对话和工具调用等任务上的监督微调,以及使用群体相对策略优化(GRPO)算法进行强化学习(RL)。这些步骤确保模型在基合。
阅读量:239
点赞量:19
收藏量:0