行业资讯
大模型是否还需要数据标注?
发布人:小倍
2023年05月12日
在机器学习的历史上,监督学习一直是主流的方法,需要通过标注大量的数据来训练模型。然而,随着模型规模的不断增大,数据量的需求也变得越来越大,使得标注数据的时间和成本变得难以控制,并且高质量的标注数据的生产速度也无法满足大型模型的需求。这个问题在大型强化学习模型(Large-Scale Deep Reinforcement Learning,LLDL)中更加严重。虽然预训练模型(Pretrained Models)实现了从有监督学习到无监督学习的跨越,但是在过去一段时间内,许多人担心数据标注在LLDL时代的价值。
然而,随着 ChatGPT 的出现,这种担忧有所缓解。ChatGPT 使用强化学习和人类反馈来使模型更好地与人类指令保持一致,即 RLHF (Reinforcement Learning from Human Feedback)。这个过程中涉及到大量的数据标注工作。
RLHF 的数据标注与此前的低成本劳动力完成的简单数据标注工作也有所不同。现在的数据标注需要非常专业的人士来完成,他们需要针对相应的问题和指令,给出符合人类逻辑与表达的高质量答案。倍赛科技作为大模型训练的上游供应商,针对大模型训练也开发了相应的标注工具以满足市场需求。
标注数据对于 ChatGPT 效果的提升至关重要,是 ChatGPT 区别于其他竞争对手的原因之一。虽然 GPT-3 仍然采用了预训练模型路线,但是它也使用了深度学习中的无监督学习方法,由于 GPT-3 需要生成更加复杂和真实的文本,因此它需要更多高质量的标注数据。
Google 的一位技术专家也表示,在 ChatGPT 出来后,Google 也在针对数据标注问题进行反思。他认为,在 GPT-3 之后,数据标注变得更加重要,因为它可以帮助模型更好地理解人类指令,并且在调整模型时更加精确。因此,OpenAI 和其他公司都需要更多高质量的标注数据来训练他们的大模型。
上一篇
下一篇
相关文章
数据标注:AIGC的重要支撑
AIGC是人工智能生成内容(Artificial Intelligence Generated Content)的简称,指的是利用人工智能技术,根据用户的需求或指示,自动创造出文本、图像、音频、视频等各种类型的内容。AIGC有着广泛的应用场景,例如新闻报道、教育教材、娱乐媒体、广告营销、社交媒体等。AIGC也有着巨大的潜力,可以提高内容生产的效率、质量和多样性,同时也可以降低内容生产的成本、风险和门槛。
2023年06月09日
数据标注平台在智能安防领域的应用
数据标注平台是一种用于创建和管理数据集的工具,可以用于机器学习、人工智能、自然语言处理等领域。数据标注平台在智能安防领域有着重要的应用,通过提供生物识别、行为监测等技术手段,广泛地应用于城市道路监控、车辆人流监测、公共安全防范等场景。
2023年05月18日
数据标注:AI背后又一个鸡蛋悖论?
在ChatGPT掀起人工智能(AI)热潮的当下,AI三要素之一的数据也成为了热门话题。
2023年05月12日