几天前,Meta公司就重磅发布了CM3Leon的文生图模型,性能媲美Stable Diffusion、Midjourney,并在模型技术层面成为史上首个采用基于token的自回归模型的方法训练模型,这在文声图和图像理解领域都是绝对的突破和创新。
爱“搞事情”的Meta还不满足,近日又宣布和微软建立深度合作,硬刚OpenAI和谷歌,推出全新一代的大型语言模型Llama2,关键在于,免费开源且可商业化,这你受得了吗?
大模型市场格局生变
不得不说Meta格局是真大,相较于走闭源技术保密路线的GPT-4,Meta的开源行为,无疑将改变整个大模型行业的竞争格局。
开源之后必将让大量的开发者和创业者倒戈向Meta,获得更多的可训练数据,在开发者的帮助下不断完善和改进Llama2,以此打开市场,吸引更多AI用户的涌入,为未来的商业化做铺垫,讲真,被Meta这波利用开放生态反杀OpenAI的操作装到了。
增加40%训练数据实现模型性能提升
根据Meta的官方数据,Llama 2 相较于上一代Llama1,训练数据提升了40%,包含了70亿、130亿和700亿参数 3个版本。Llama 2 预训练模型是在 2 万亿个 tokens 上进行训练的,其微调模型已经接受了超过 100 万个人类标注数据的训练。

在详细的性能评测中,Llama2相比上代模型,在理解能力、推理能力、学科能力等维度的评测结果上均获得了不同程度的性能提升。

另外,700亿参数的Llama2,搭配了更海量的训练数据之后,性能得到提升,在多个评测集上达到了GPT-3.5相近的性能。如果能在开源社区的贡献下,Llama2模型性能超越GPT3.5甚至GPT-4,只是时间问题。

构建超强对话能力模型
对对话任务进行微调的语言模型Llama2-chat也是本次升级的重点,通过引入有监督微调(SFT)和基于人类反馈的强化学习(RLHF)来提升模型的多轮对话能力,在有用性和安全性指标上普遍优于当前公开发布的对话模型。

SFT
具体来讲,Llama2-chat首先收集了约3万个高质量的示范性对话数据,在这些监督数据上进行微调,让Llama2适应对话场景,研究发现,相比大量低质量数据,少量高质量数据可以更快地提升模型的对话质量。

RLHF
在监督微调后的基础上,收集了超过100万个人类偏好反馈的样本数据,即让数据标注员对模型生成的不同回复进行比较和选择,用这些偏好数据专门训练有用性奖励模型和安全性奖励模型,来自动评估对话回复的质量。然后再使用PPO和拒绝抽样等强化学习算法,让语言模型在这些奖励模型的指导下逐步与人类偏好对齐。而且模型性能的提升,需要持续收集新的偏好和反馈样本来保证奖励模型的鲁棒性。

由此可见,要想让Llama2更好地应用到实际对话场景中,只有预训练数据是远远不够的,更需要利用有监督微调(SFT)和基于人类反馈的强化学习(RLHF)来对模型进行微调,以优化和提升模型在各方面的性能。倍赛科技在模型训练调优环节为企业提供强有力的数据支持,高效提升模型的对话质量,帮助企业训练出更符合人类预期和行业认知的对话模型。
推动大模型健康发展
只有了解了大模型训练的过程,才能真正站在巨人肩膀上进行研究与突破,Meta将Llama2开源,无疑是在开源社区投下了一颗“原子弹”,但这绝对是正确且积极的事情,相信在开源社区的共同努力之下,可以让我们看到大模型作为一种新技术在未来的无限可能。
同时,开放的生态也让更多企业有机会迅速入局大模型,如果您在训练大模型的过程中遇到问题,倍赛科技作为行业领先的大模型数据服务商,将提供从开源到闭源,从清洗到蒸馏,从RLHF对齐到数据任务标注的一站式数据解决方案。帮助大模型实现高效的训练、微调和定制化,赋能千行百业的智能升级。
参考:https://ai.meta.com/resources/models-and-libraries/llama/ 上一篇
下一篇