行业资讯
训练数据量提升40%,更强llama2大模型开放了!
发布人:小倍
2023年07月21日
几天前,Meta公司就重磅发布了CM3Leon的文生图模型,性能媲美Stable Diffusion、Midjourney,并在模型技术层面成为史上首个采用基于token的自回归模型的方法训练模型,这在文声图和图像理解领域都是绝对的突破和创新
爱“搞事情”的Meta还不满足,近日又宣布和微软建立深度合作,硬刚OpenAI和谷歌,推出全新一代的大型语言模型Llama2,关键在于,免费开源且可商业化,这你受得了吗?
大模型市场格局生变
不得不说Meta格局是真大,相较于走闭源技术保密路线的GPT-4,Meta的开源行为,无疑将改变整个大模型行业的竞争格局。
开源之后必将让大量的开发者和创业者倒戈向Meta,获得更多的可训练数据,在开发者的帮助下不断完善和改进Llama2,以此打开市场,吸引更多AI用户的涌入,为未来的商业化做铺垫,讲真,被Meta这波利用开放生态反杀OpenAI的操作装到了。
增加40%训练数据实现模型性能提升
根据Meta的官方数据,Llama 2 相较于上一代Llama1,训练数据提升了40%,包含了70亿、130亿和700亿参数 3个版本。Llama 2 预训练模型是在 2 万亿个 tokens 上进行训练的,其微调模型已经接受了超过 100 万个人类标注数据的训练
在详细的性能评测中,Llama2相比上代模型,在理解能力、推理能力、学科能力等维度的评测结果上均获得了不同程度的性能提升。
另外,700亿参数的Llama2,搭配了更海量的训练数据之后,性能得到提升,在多个评测集上达到了GPT-3.5相近的性能。如果能在开源社区的贡献下,Llama2模型性能超越GPT3.5甚至GPT-4,只是时间问题。
构建超强对话能力模型
对对话任务进行微调的语言模型Llama2-chat也是本次升级的重点,通过引入有监督微调(SFT)和基于人类反馈的强化学习(RLHF)来提升模型的多轮对话能力,在有用性和安全性指标上普遍优于当前公开发布的对话模型。
SFT
具体来讲,Llama2-chat首先收集了约3万个高质量的示范性对话数据,在这些监督数据上进行微调,让Llama2适应对话场景,研究发现,相比大量低质量数据,少量高质量数据可以更快地提升模型的对话质量
RLHF
在监督微调后的基础上,收集了超过100万个人类偏好反馈的样本数据,即让数据标注员对模型生成的不同回复进行比较和选择,用这些偏好数据专门训练有用性奖励模型和安全性奖励模型,来自动评估对话回复的质量。然后再使用PPO和拒绝抽样等强化学习算法,让语言模型在这些奖励模型的指导下逐步与人类偏好对齐。而且模型性能的提升,需要持续收集新的偏好和反馈样本来保证奖励模型的鲁棒性
由此可见,要想让Llama2更好地应用到实际对话场景中,只有预训练数据是远远不够的,更需要利用有监督微调(SFT)和基于人类反馈的强化学习(RLHF)来对模型进行微调,以优化和提升模型在各方面的性能。倍赛科技在模型训练调优环节为企业提供强有力的数据支持,高效提升模型的对话质量,帮助企业训练出更符合人类预期和行业认知的对话模型。
推动大模型健康发展
只有了解了大模型训练的过程,才能真正站在巨人肩膀上进行研究与突破,Meta将Llama2开源,无疑是在开源社区投下了一颗“原子弹”,但这绝对是正确且积极的事情,相信在开源社区的共同努力之下,可以让我们看到大模型作为一种新技术在未来的无限可能。
同时,开放的生态也让更多企业有机会迅速入局大模型,如果您在训练大模型的过程中遇到问题,倍赛科技作为行业领先的大模型数据服务商,将提供从开源到闭源,从清洗到蒸馏,从RLHF对齐到数据任务标注的一站式数据解决方案。帮助大模型实现高效的训练、微调和定制化,赋能千行百业的智能升级。
参考:https://ai.meta.com/resources/models-and-libraries/llama/
上一篇
下一篇
相关文章
评估及衡量大模型水平的方法
要评估一个大型语言模型的水平,可以从以下几个维度提出具有代表性的问题。
2023年08月23日
揭秘AI大模型的未来,十大趋势引领新纪元
最近,一份名为《人机共生——大模型时代的AI十大趋势观察》的报告引起了广泛关注。这份报告是由腾讯研究院、同济大学等多个组织联合发布的,旨在探讨大模型人工智能技术发展的趋势。报告从技术、应用和社会等多个角度提出了对大模型时代的观察和预测。这些观点将有助于我们更好地理解和把握大模型AI技术的发展方向。
2023年08月11日
数据标注:AI机器人的智慧之源
AI机器人是一种能够模仿人类行为和思维的智能设备,它们在各个领域都有广泛的应用,比如教育、医疗、娱乐、安防等。AI机器人的核心能力是通过机器学习和深度学习算法,从大量的数据中提取知识和规律,从而实现自主学习和决策。
2023年07月07日