近日,加州大学伯克利分校的教授 James Demmel 和新加坡国立大学的计算机系校长兼青年教授尤洋发布了一项开源的低成本 ChatGPT 等效实现流程,瞬间吸引了无数 AI 爱好者的目光。
据悉,该研究团队通过引入人类反馈强化学习(RLHF),使得这款 AI 聊天机器人更好地捕捉到人类的偏好。ChatGPT 的训练过程主要分为三个阶段:从Prompt库中取样,收集人类的反应,并使用这些数据来微调预先训练好的大型语言模型。在第三阶段,也就是 RLHF 训练的核心部分,采用 OpenAI 中的强化学习近端策略(Proximal Policy Optimization,PPO)算法,引入奖励信号,使语言模型生成更更符合人类偏好的内容。
Colossal-AI 的研究团队表示,这项研究成果可以大大降低 ChatGPT 的训练成本,加速产品迭代,提高产品可复制性。此外,他们还提供了一个基于 Colossal-AI 的通用深度学习系统框架,以便开发者快速启动大规模 AI 大模型训练和推理。
目前,该研究团队已经开源了完整的算法和软件设计来复制 ChatGPT 的实现过程:https://github.com/hpcaitech/ColossalAI。不过,同样是基于成本考虑,他们表示,「对于这样一个巨型的人工智能模型,它需要更多的数据和计算资源来实际生效和部署。因此,大型预训练模型长期以来只为少数大科技公司所拥有。」因此,他们也希望能够以开源的方式,吸引更多的研究人员、机构共同参与进来,仅以上文中所复制 ChatGPT 训练流程的实践探索为起点,未来可以向大模型的时代做出努力。
免费交流群:领运营干货,拓展人脉资源,进群备注“进群”,客服微信yunyingquan888
版权声明:除特别注明,本站所有文章均为原创,如需转载请与我们联系。如特别标明作者,版权(文章、图片、视频等)均归作者所有,本平台仅提供信息存储服务,如若转载请联系原作者。