个人中心
登出
中文简体
返回
登录后咨询在线客服
回到顶部
微软Build大会: 在人工智能时代释放创新的力量
浏览 8.7万 内容 26

终于有人明确了 GPT 的状态!

$微软(MSFT.US)$ 从今天开始看 Andrej Karpathy 的演讲,在推特上做笔记,一起来兜风吧:
安德烈·卡尔帕西从各个阶段开始:
1-预训练-几个月 x 数千个 GPU
2、3、4-需要数小时或数天的微调阶段
终于有人明确了 GPT 的状态!
在进行预训练之前,有 2 个准备步骤。
数据收集-从不同的来源获取大量数据(这里是 Andrej LLaMa 混合物)
标记化-单词片段和整数之间的无损翻译。
终于有人明确了 GPT 的状态!
终于有人明确了 GPT 的状态!
“你不应该仅凭模型包含的参数数量来判断模型的力量”
LLaMa 已经接受了 1-1.4 万亿个代币的训练,而在 GPT-3 中训练了 3000B 代币。
终于有人明确了 GPT 的状态!
“不幸的是,我没有足够的时间来研究变形金刚是如何工作的” 一定会喜欢 Andrej 对教学的渴望!
顺便说一句,我无法将其总结为一条推文。
终于有人明确了 GPT 的状态!
以下是《纽约时报》的一个例子,他在莎士比亚身上训练了一个 GPT 模型
你可以看到,在多次迭代之后,LM在预测莎士比亚文本中接下来的词汇方面变得越来越好。
终于有人明确了 GPT 的状态!
好的,这里强烈解释一下,但是,每次迭代,学员模型都会试图预测下一个代币/整数会出现在绿色代币/整数之后(如图所示),训练曲线对此进行了概述,与原始文本相比,它预测下一个代币的效果如何。
围绕 GPT-2,业界注意到,如果我们以特定方式构造提示并提供一些示例(Few Shot 提示),那么基础模型将被 “欺骗” 自动完成我们在提示中提供的指令。
终于有人明确了 GPT 的状态!
安德烈重复了好几遍,目前最值得学习的开源模型可能是 LLaMa
$Meta Platforms(META.US)$ AI(因为 OAI 没有发布任何关于 GPT-4 的内容)
GPT-2-已发布 + 权重
GPT-3-可通过 API 获得基本型号 (da-vinci)
GPT-4-无法通过 API 获得
终于有人明确了 GPT 的状态!
基本模型不是助手,从基本意义上讲,它们不会 “按你的要求去做”。他们只是自动填写文本。
但是,如果你用很少的提示来构造你的文档,它会 “欺骗” 基础模型,让它认为它会自动完成人工智能和人类之间的聊天
终于有人明确了 GPT 的状态!
但是这个技巧还不够。因此,我们要转到第 2 步。
监督微调。
收集小而高质量的指令数据集(比如人工承包商)
现在继续使用交换的数据集训练模型,我们得到了 SFT(监督微调)模型。
终于有人明确了 GPT 的状态!
SFT 模型... 还不太好,绝对不是 ChatGPT 的质量。因此,训练仍在继续
使用SFT模型生成问题输出,用户查看和比较3个版本并排名最好,然后根据用户的选择对模型进行重新训练
终于有人明确了 GPT 的状态!
这是通过权衡对回复的投票率进行权衡来实现的。例如,当你击中 要么 在 ChatGPT 中,或者选择重新生成响应,这些信号非常适合 RLHF。
安德烈正在探讨RLHF模型对我们 “感觉” 更好的潜在原因。至少在成为一个好助手方面是如此。
再说一遍,如果有人还在读书,我会推荐你看视频
有趣的是,安德烈所说的RLHF并不是对基本模型的严格改进。RLHF 模型的熵值较小,因此其潜在的 “创造性” 较差。
因为基础模型仍然更好,因为它们仍然很混乱。
终于有人明确了 GPT 的状态!
这是伯克利人根据排名对模型的当前状态进行排序。
有趣的是,karpathy 说 GPT-4 是 “迄今为止” 最好的,但在排行榜上,其 1274 到 Claude 的 1224 ELO 评分似乎 “到目前为止” 还没有
终于有人明确了 GPT 的状态!
RLHF 模型排名更高,所有前三名都是 RLHF 模型,其余的(据他所知是 SFT 模型)
哇哦!我们已经完成了谈话的前半部分。移至 “将这些模型应用于问题”。
终于有人明确了 GPT 的状态!
然后,安德烈相当深入地探讨了人类撰写声明的过程之间的区别
“加利福尼亚的人口是阿拉斯加的人口的53倍”
人脑会经历循环、事实检查、计算、反思。
终于有人明确了 GPT 的状态!
当 GPT 尝试自动完成时,GPT 中没有内部对话框。
无论代币是需要查询的数字还是需要检查的事实,它花费的每个代币的 “计算” 量都是相同的,但是它们拥有丰富的知识和完美的记忆力(上下文窗口)
终于有人明确了 GPT 的状态!
思想链之类的方法通过询问 “让我们逐步思考” 来为模型提供 “更多标记” 或 “更多思考时间”
这将使模型展示其工作原理,这将让它 “有时间思考” 以获得更好的答案
终于有人明确了 GPT 的状态!
现在,安德烈将自我反思作为一种方法。
模型可能会被 “卡住”,因为他们无法取消已经采样的代币。
想象一下自己说错了单词然后把自己停在中间 “让我改写一下” 然后你重新开始这句话
模特没有那么奢侈所以他们可能会被困在错误的道路上...
但是诸如自我反省之类的例子表明,要求模型审查其输出,对其进行判断,会使模型进行 “第二次更改” 或再次推翻输出的推理,从而改善结果!
终于有人明确了 GPT 的状态!
我很喜欢,Andrej 使用了 LLM 的思维速度和慢速思考——系统 1 和系统 2 的思维模型。
像 CoT、Self Reflexion 和最近发布的 Tree of Thought 这样的技巧是我们构建系统 2 的尝试,思维越慢、更深思熟虑
类推。
终于有人明确了 GPT 的状态!
免责声明:社区由Moomoo Technologies Inc.提供,仅用于教育目的。 更多信息
2
5
+0
原文
举报
浏览 4.3万
评论
登录发表评论