12.07.24 | 20:18 PM
OpenAI王炸第二弹强化微调 Altman称为今年最大惊喜
BY 媒介360

OpenAI 在社交媒体 X 公布第二日活动的主题是新功能「强化微调」(Reinforcement Fine-Tuning)。这个主题是指,企业组织将能够通过「强化微调」微调 o1 mini,满足他们的特定需求

OpenAI CEO Sam Altman 在 X 发帖称,强化微调的效果非常棒,是他今年最大的惊喜之一,期待看到大家利用这种功能的创造。

OpenAI 的研究员本周五介绍,科学家、开发人员和研究人员可以根据自己的数据、而不是仅仅使用公开可用的数据,量身定制 OpenAI 的强大推理模型 o1。不同行业的人可以使用强化学习来创建基于 o1 的专家模型,从而提高该领域的整体专业知识水平。开发者、研究者和机器学习工程师将首次能运用强化学习,打造在精通他们各自专业领域的专家模型。

OpenAI 的研究员称,强化微调并不是单单教模型模型输出,它的运作方式是,当模型发现一个问题的时候,研究者给模型空间区仔细思考这个问题,然后评估模型给出的最终解答,运用强化学习,研究者可以强化产生正确答案的思路,抑制产生错误答案的思路,只需要「几十个例子」(a few dozen examples)、甚至 12 个例子,模型就能以有效的新方式学习特定领域的推理。

advertisement