share_log

Jim Fan锐评:GPT-4o低延迟的奥秘在这里

Jim Fan銳評:GPT-4o低延遲的奧秘在這裏

華爾街見聞 ·  05/13 22:03

OpenAI在深夜發佈了號稱比GPT 4-Turbo還快2倍的新模型GPT-4o後,英偉達高級研究科學家Jim fan表示:從系統上看,如果每個視頻幀都解壓成RGB圖像,就能實現低延遲。

14日凌晨,OpenAI召開了一個簡短的發佈會,發佈了新的AI模型:GPT-4o,除了可以給普通用戶使用之外,還將開放相應API給GPT的開發者,比原來的GPT 4-Turbo快2倍,價格還便宜50%,妥妥的“加量又減價”。

英偉達高級研究科學家Jim Fan對此發了篇長推文,點評OpenAI的這款新模型:低延遲,支持文字、圖像和視頻輸入和輸出,而且還會假裝自己是有情感的人類...

原文如下:

我知道你的時間線上現在充斥着“瘋狂的,電影《Her》,你錯過的10個功能,我們又回來了”這樣的文字。 坐下來,像Mark在演示中那樣深呼吸,讓我們一步步思考:

從技術角度來看,OpenAI已經找到了一種方法,可以直接將音頻映射到音頻作爲第一類模態,並實時將視頻流傳輸到transformer大模型。這需要對標記化和架構進行一些新的研究,但總體上是一個數據和系統優化問題。

高質量的數據至少可以來自以下兩個來源:

首先是YouTube、播客、電視劇、電影等內容包含的對話。

可以訓練Whisper來識別對話中的發言者順序或分離重疊的講話以進行自動註釋。

其次是合成數據。使用強大的模型分3階段運行:

語音1->文本1(自動語音識別ASR)

文本1->文本2(大型語言模型LLM)

文本2->語音2(文本到語音TTS)。

期間大型語言模型LLM可以決定何時停止,也可以模擬如何從中斷中恢復。它可以輸出對話中暗含“想法”,以幫助生成更好的回覆。

然後GPT-4o直接從語音1>語音2過程中進行提取,可選的輔助損失函數基於3階段數據。提取後,所有操作都被被嵌入到模型中,而不需要發出中間文本。

在系統方面:如果每個視頻幀都解壓成RGB圖像,就能實現低延遲。OpenAI可能已經開發了基於神經網絡的流式視頻編解碼器,以token形式傳輸運動增量。通信協議和神經網絡推理必須共同優化。

例如,可以在終端設備上運行一個小型且節能的神經網絡,如果視頻有趣就傳輸更多token,否則傳輸較少。

我沒想到GPT-4o會離GPT-5更近,GPT-5是傳聞中的“Arrakis”模型,可以輸入和輸出多模態。實際上,它很可能是GPT-5的一個早期訓練點,但還沒有完成訓練

GPT-4o的定位透露出OpenAI某種不安全感。在Google I/O之前,OpenAI寧願超越我們對GPT-4.5的心理預期,也不願因爲達不到對GPT-5的極高期望而令人失望。這是一個聰明的舉措,可以爭取更多時間。

值得注意的是,GPT-4o更加活潑,甚至有點調皮。GPT-4o甚至嘗試(也許有點過於努力)聽起來像女性。OpenAI正在蠶食Character AI的市場份額,這兩家的產品高度重疊,並且OpenAI擁有龐大的分銷渠道。GPT-4o正嘗試向更具情感的AI轉變,OpenAI過去似乎積極抑制了這一點。

誰先贏得蘋果,誰就能大獲全勝。我看到與iOS的整合有三個層次:

1)放棄Siri。OpenAI爲iOS提取一個較小級別的、純粹的設備上的GPT-4o,可選的付費升級以使用雲服務。

2)將相機或屏幕流式傳輸到模型,芯片級支持神經音頻/視頻編解碼器。

3)與iOS系統級操作API和智能家居API整合。沒有人使用Siri快捷方式,但現在是時候復活了。這可以立即成爲擁有10億用戶的AI代理產品。智能手機的全自動駕駛(FSD)與特斯拉規模的數據飛輪。

以下是他的推特原文:

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論