🔥 Gate 动态大使专属发帖福利任务第三期报名正式开启!🏆 第二期获奖名单将于6月3日公布!
👉️ 6月3日 — 6月8日期间每日发帖,根据帖子内容评级瓜分 $300奖池
报名即可参与:https://www.gate.com/zh/questionnaire/6761
报名时间:6月3日10:00 - 6月8日 24:00 UTC+8
🎁 奖励详情:
一、S级周度排名奖
S级:每周7日均完成发帖且整体帖子内容质量分数>90分可获S级,挑选2名优质内容大使每人$50手续费返现券。
二、A/B 等级瓜分奖
根据各位动态大使发帖数量及帖子内容质量获评等级,按评定等级获奖:
A级:每周至少5日完成发帖且整体帖子内容质量90>分数>80可获A级,从A级用户中选出5名大使每人$20手续费返现券
B级:每周至少3日完成发帖且整体帖子内容质量80>分数>60可获B级,从B级用户中选出10名大使每人$10手续费返现券
📍 活动规则:
1.每周至少3日完成发帖才有机会获奖。
2.根据发帖天数和整体发帖内容质量分数给予等级判定,分为S/A/B等级,在各等级下选择幸运大使获奖。
💡 帖子评分标准:
1.每帖不少于30字。
2.内容需原创、有独立见解,具备深度和逻辑性。
3.鼓励发布市场行情、交易知识、币种研究等主题,使用图例或视频可提高评分。
4.禁止发布FUD、抄袭或诋毁内容,违规将取
击败整个羊驼家族,Meta AI自对齐新方法只需极少人工标注数据
原文来源:量子位
人工标注数据告急?
Mata新方法仅用少量种子数据,就构建了一个高质量的指令遵循( instruction following)语言模型。
换言之,大语言模型需要大量人工标注的指令数据进行微调,而现在模型可自动从网络语料库未标记的文本中推理出指令。
然后用自己生成的指令数据进行训练,堪比自产自销。
并且用这种方法训练出的模型在Alpaca基准测试上,超越开源羊驼及其一系列衍生模型。
LeCun发推认为该研究在模型自对齐方面具有轰动性:
羊驼:我自己搞数据训练了一头鲸
这种可扩展的新方法叫做指令回译,Mata为用这种方法训练出的模型起了个名字——Humpback(座头鲸,又称驼背鲸)。
(研究人员表示,之所以起这么个名字,是因为它和骆驼背的关系,而且鲸鱼体型更大,对应模型规模更大)
标注示例和语料来源都有了,下一步就是**自增强(Self-augment)**阶段。
研究人员用种子数据对基础模型LLaMa进行了微调,获得指令预测模型。然后用这个指令预测模型,为未标注文本推理出一个候选指令。之后组合候选指令与文本(指令-输出对),作为候选增强训练数据,也就是上图中的Augmented Data A。
但还不能用A的数据直接训练,因为未标注文本本身质量参差不齐,生成的候选指令也存在噪声。
所以需要关键的**自管理(Self-curate)**步骤,使用模型预测数据质量,选择高质量样本进行训练。
为了提高模型指令预测质量,研究人员用候选数据迭代训练了模型,在迭代训练中,数据质量也会越来越好。
此外,在组合种子数据和增强数据微调模型时,他们还使用不同的系统提示标记区分了这两个数据源:
进行两轮迭代后,最终模型就新鲜出炉啦。
合并两种训练数据:1+1>2
下面再来看看研究人员的分析结果:
上图是用8%种子数据和13%的增强数据统计的指令多样性。
可以很直观地看到,在长尾部分增强数据多样性更强,且增强数据与现有的人工标注种子数据相辅相成,补充了种子数据中未出现的类型。
其次,研究人员比较了三个增强数据集:Augmented data,all(无自管理)、
(text-davinci-003,一种基于GPT-3的指令遵循模型,使用强化学习在人类编写的指令数据、输出、模型响应和人类偏好上进行了微调)
最后来看一下Alpaca排行榜上的结果。Humpback在不依赖蒸馏数据的情况下,表现明显优于其它方法,并且缩小了与专有模型之间的差距。
非蒸馏(Non-distilled),指不依赖于任何外部模型作为任何形式监督的训练模型;蒸馏(Distilled),指在训练过程中引入更强大的外部模型,例如使用从外部模型蒸馏的数据;专有(Proprietary),指使用专有数据和技术进行训练的模型。
在与开源模型LIMA 65B、Guanaco 65B、Falcon-Instruct 40B和专有模型davinci-003、Claude的比较中,Humpback的表现也都更符合人类偏好。
由于用于训练的文本数据来自网络语料库,微调后的模型可能会放大网络数据的偏差。虽然和基础模型相比,微调后的模型提高了检测偏差的准确性。然而,这并不意味着会完全解决这个问题。
传送门:论文链接)
参考链接:
[1]
[2]
[3]