OpenAI 突破传统微调,RFT 技术可精准定制 o4-mini 模型-灵析社区

AI资讯

OpenAI在其o4-mini推理模型上推出了强化微调技术(RFT),为定制基础模型以适应特定任务带来了突破性工具。RFT技术将强化学习原理融入语言模型的微调过程,开发者通过设计任务特定的评分函数(grader)来评估模型输出。评分函数根据自定义标准(如准确性、格式或语气)为模型表现打分,模型则通过优化奖励信号逐步学习,生成符合期望的行为。这种方法适用于难以定义标准答案的复杂任务,特别是在医疗、法律等领域。 o4-mini是OpenAI于2025年4月发布的一款紧凑型推理模型,支持文本和图像输入,擅长结构化推理和链式思维提示(chain-of-thought prompts)。通过RFT,OpenAI为开发者提供了一个高效、强大的基础模型,适合高风险、领域特定的推理任务,具有高计算效率和响应速度,适用于实时应用场景。 早期采用者已展示RFT在o4-mini上的潜力,特别是在法律、医疗、代码生成等领域。相关案例如下: - Accordance AI开发税务分析模型,准确率提升39%; - Ambience Healthcare优化医疗编码,ICD-10分配性能提升12个百分点; - 法律AI初创公司Harvey提升法律文档引文提取的F1分数20%; - Runloop改进Stripe API代码生成,性能提升12%; - 调度助手Milo和内容审核工具SafetyKit分别取得显著进步。 使用RFT需完成四步:设计评分函数、准备高质量数据集、通过OpenAI API启动训练任务,以及持续评估和优化。 目前,RFT向认证组织开放,训练费用为每小时100美元,若使用GPT-4o等模型作为评分工具,还需按标准推理费率额外计费。OpenAI为共享数据集用于研究的组织提供50%的训练费用折扣。

阅读量:354

点赞量:14

收藏量:0