登出

微軟Build大會：在人工智能時代釋放創新的力量

瀏覽 8.7萬內容 25

Meltyy 參與了話題 · 2023/05/30 03:39

終於有人清楚了解 GPT 的狀態！

$微軟(MSFT.US)$ 今天觀看安德烈·卡帕蒂的演講並記下推特筆記，來參加這趟旅程：
安德烈·卡帕蒂從階段開始：
1-訓練前-數月 x 數千個 GPU
2、3、4-需要數小時或數天的精細調節階段

終於有人清楚了解 GPT 的狀態！

在進行前訓練之前，有兩個準備步驟。
數據收集-從不同來源獲取大量數據（在這裡安德烈拉瑪混合物）
代幣化-單詞和整數之間的無損翻譯。

終於有人清楚了解 GPT 的狀態！

終於有人清楚了解 GPT 的狀態！

「你不應該只用它包含的參數量來判斷模型的力量」
LLama 在 GPT-3 中進行了 1-1.4 萬兆代幣與 300 億代幣進行培訓。

終於有人清楚了解 GPT 的狀態！

「不幸的是，我沒有足夠的時間來探討變壓器的工作方式」一定要愛安德烈渴望教學！
我無法將這一點總結為一個推文。

終於有人清楚了解 GPT 的狀態！

以下是新聞網的一個例子，他在莎士比亞培訓了 GPT 模特
您可以看到 LM 如何更好地預測莎士比亞文本中的下一個單詞會出現的許多重複後，您可以看到繼續改進。

終於有人清楚了解 GPT 的狀態！

可以在這裡強烈地轉譯，但是，每次迭代，學員模型都會嘗試預測綠色代幣/整數（在圖中）之後會出現哪個令牌/整數，這是由訓練曲線描述了，它能夠預測下一個令牌的效果如何與原始文本相比。

關於 GPT-2，業界注意到，如果我們以特定的方式構建提示，並提供一些例子（Few Shot 提示），那麼基本模型將被「欺騙」，自動完成我們在提示中提供的指示。

終於有人清楚了解 GPT 的狀態！

Andrej 重複了幾次，目前可以從中學習的最好的開源模型可能是 LLama
$Meta Platforms(META.US)$ 人工智能（由於 OAI 沒有發布關於 GPT-4 的任何內容）
GPT-2-已釋放 + 重量
GPT-3-通過 API 提供的基本模型（達文西）
GPT-4-無法通過 API 提供

終於有人清楚了解 GPT 的狀態！

基本模型不是助手，他們從基本意義上不「做你要求的事」。它們只是自動完成文本。
但是，如果您使用 Few-shot 提示來構建文檔，它將「欺騙」基本模型以認為它自動完成 AI 和人類之間的聊天

終於有人清楚了解 GPT 的狀態！

但這個技巧還不夠。所以我們正在轉到步驟 2。
受監督的微調。
收集小但高質量（考慮人力承包商）指令數據集
現在繼續使用交換的數據集訓練模型，我們將獲得 SFT（受監控的微調）模型。

終於有人清楚了解 GPT 的狀態！

SFT 模型... 還不好，絕對不是 ChatGPT 質量。所以培訓繼續
使用 SFT 模型產生問題的輸出，用戶在 3 個版本之間查看和比較，並排名哪個是最好的，然後根據用戶的選擇重新培訓模型

終於有人清楚了解 GPT 的狀態！

這是通過選擇更好的投票的回應來完成的。例如，當你擊中時或者在 ChatGPT 中，或選擇重生響應，這些信號對 RLHF 非常適合。

Andrej 正在研究為什麼 RLHF 模型對我們「感覺」更好的潛在原因。至少在當一個好助手方面。
再次在這裡，如果有人還在閱讀，我會向您推薦視頻

有趣的是，Andrej 談到 RLHF 並不是對基本模型的嚴格改進。RLHF 模型具有較少的吸收力，因此其潛在的「創意」性較少。
因此，基本模型還是更好，因為它們仍然混亂。

終於有人清楚了解 GPT 的狀態！

這是 Berkley 的人根據排名對模特的當前狀態。
有趣的是，卡帕蒂說 GPT-4 是「迄今為止」最好的，但在圖表上，它的 1274 和克勞德的 1224 ELO 等級似乎並不是「到目前為止」

終於有人清楚了解 GPT 的狀態！

RLHF 車型排名更好，前 3 全都是 RLHF 模型，其餘的車型（據他所知是 SFT 模型）
哇！我們已經完成談話的上半部分了移至應用這些模型對問題。

終於有人清楚了解 GPT 的狀態！

然後，Andrej 進一步深入了解人類編寫這樣的陳述過程之間的區別
「加利福尼亞州的人口是阿拉斯加的 53 倍」
人類大腦經歷循環、事實檢查、計算、反思。

終於有人清楚了解 GPT 的狀態！

當 GPT 嘗試自動完成時，GPT 中沒有內部對話框。
它每個令牌花費相同的「計算」數量，無論令牌是需要查找的數字還是需要檢查的事實，但它們具有龐大的知識和完美的內存（上下文窗口）

終於有人清楚了解 GPT 的狀態！

思想鏈之類的方法通過問「讓我們一步一步思考」來為模型提供「更多代幣」或「更多時間思考」
這將使模型顯示它的工作效果，這將給它「時間思考」以獲得更好的答案

終於有人清楚了解 GPT 的狀態！

現在安德烈正在進行自我反思作為一種方法。
模型可能會「卡住」，因為他們無法取消已採樣的代幣。
想像自己說錯誤的單詞，在中間停下自己「讓我重寫」，然後重新開始句子

模特兒沒有那麼奢華，所以他們可能會被困在錯誤的道路上...
但是像自我反思這樣的例子表明，要求模型檢視其輸出，判斷它，會給模型「第二次更改」或者另一次通過輸出的推理，從而改善了結果！

終於有人清楚了解 GPT 的狀態！

我喜歡它，Andrej 將思考快速和慢速-系統 1 和系統 2 的思維模型用於 LLM。
這些技術，例如 CoT，自我反思和最近發布的思想樹，是我們打造系統 2 的嘗試，即更慢，更有意識的思維

類似。

終於有人清楚了解 GPT 的狀態！

$C3.ai(AI.US)$ $谷歌-A(GOOGL.US)$ $特斯拉(TSLA.US)$ $納斯達克綜合指數(.IXIC.US)$ $SPDR 標普500指數ETF(SPY.US)$

免責聲明：社區由Moomoo Technologies Inc.提供，僅用於教育目的。更多信息

+0

7

原文

舉報

瀏覽 4.3萬

評論

登錄發表評論

挣钱养猫猫😺

1731粉絲

23關注

1.5萬來訪

關注