LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破-灵析社区

AI资讯

LeCun在2016年提出的「蛋糕比喻」准确预测了大模型的发展路线,强化学习逐渐成为模型发展的关键阶段。OpenAI最近宣布推出强化微调(RFT)API,允许开发者通过提供少量高质量样本定制专家模型。这项技术的实现将有助于提升强化学习的稳定性,突破其传统的训练不稳定性问题。与指令调优不同,RFT可以通过重复训练多个数据点以优化模型,使其更加稳定和有效。 "Image 43" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_66d1e5ea06644bad8a3c0b0c711c8676@46958_oswg438115oswg848oswg478_img_000.jpg) 强化微调不仅提高了训练过程的稳定性,还拓宽了强化学习在大模型中的应用范围。OpenAI还提到,利用RFT API,开发者可以快速训练一个领域专家模型,并根据反馈对模型进行评分调整。相比传统的强化学习,RFT允许更少样本也能产生有效的学习效果,具有较大的应用潜力。 对于RFT的具体实现,目前仍有诸多猜测,但从与AI2的RLVR工作相似的背景来看,RFT的成功可能在于其优化器和数据处理的有效性。OpenAI正在通过用户数据进行强化学习训练,进一步优化o1模型的能力。 "Image 44" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_0194645a09604adead518feb51ba2422@46958_oswg45779oswg885oswg261_img_png.jpg) 随着强化学习技术的不断成熟,其在大模型的微调方面的应用前景将愈加广阔,尤其是对推理模型和数据飞轮的推动作用不可小觑。 "Image 46" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_c1613700a55d4c479fabfa3e479984ac@46958_oswg343386oswg848oswg555_img_000.jpg) 强化微调技术的引入标志着大模型的训练技术进入了一个新的阶段,OpenAI的o1模型也因此变得更加稳定,且适应更多领域的应用需求。

阅读量:166

点赞量:12

收藏量:0