Jim Fan銳評：GPT-4o低延遲的奧秘在這裏

OpenAI在深夜发布了号称比GPT 4-Turbo还快2倍的新模型GPT-4o后，英伟达高级研究科学家Jim fan表示：从系统上看，如果每个视频帧都解压成RGB图像，就能实现低延迟。

14日凌晨，OpenAI召开了一个简短的发布会，发布了新的AI模型：GPT-4o，除了可以给普通用户使用之外，还将开放相应API给GPT的开发者，比原来的GPT 4-Turbo快2倍，价格还便宜50%，妥妥的“加量又减价”。

英伟达高级研究科学家Jim Fan对此发了篇长推文，点评OpenAI的这款新模型：低延迟，支持文字、图像和视频输入和输出，而且还会假装自己是有情感的人类...

原文如下：

我知道你的时间线上现在充斥着“疯狂的，电影《Her》，你错过的10个功能，我们又回来了”这样的文字。坐下来，像Mark在演示中那样深呼吸，让我们一步步思考：

从技术角度来看，OpenAI已经找到了一种方法，可以直接将音频映射到音频作为第一类模态，并实时将视频流传输到transformer大模型。这需要对标记化和架构进行一些新的研究，但总体上是一个数据和系统优化问题。

高质量的数据至少可以来自以下两个来源：

首先是YouTube、播客、电视剧、电影等内容包含的对话。

可以训练Whisper来识别对话中的发言者顺序或分离重叠的讲话以进行自动注释。

其次是合成数据。使用强大的模型分3阶段运行：

语音1->文本1（自动语音识别ASR）

文本1->文本2（大型语言模型LLM）

文本2->语音2（文本到语音TTS）。

期间大型语言模型LLM可以决定何时停止，也可以模拟如何从中断中恢复。它可以输出对话中暗含“想法”，以帮助生成更好的回复。

然后GPT-4o直接从语音1>语音2过程中进行提取，可选的辅助损失函数基于3阶段数据。提取后，所有操作都被被嵌入到模型中，而不需要发出中间文本。

在系统方面：如果每个视频帧都解压成RGB图像，就能实现低延迟。OpenAI可能已经开发了基于神经网络的流式视频编解码器，以token形式传输运动增量。通信协议和神经网络推理必须共同优化。

例如，可以在终端设备上运行一个小型且节能的神经网络，如果视频有趣就传输更多token，否则传输较少。

我没想到GPT-4o会离GPT-5更近，GPT-5是传闻中的“Arrakis”模型，可以输入和输出多模态。实际上，它很可能是GPT-5的一个早期训练点，但还没有完成训练。

GPT-4o的定位透露出OpenAI某种不安全感。在Google I/O之前，OpenAI宁愿超越我们对GPT-4.5的心理预期，也不愿因为达不到对GPT-5的极高期望而令人失望。这是一个聪明的举措，可以争取更多时间。

值得注意的是，GPT-4o更加活泼，甚至有点调皮。GPT-4o甚至尝试（也许有点过于努力）听起来像女性。OpenAI正在蚕食Character AI的市场份额，这两家的产品高度重叠，并且OpenAI拥有庞大的分销渠道。GPT-4o正尝试向更具情感的AI转变，OpenAI过去似乎积极抑制了这一点。

谁先赢得苹果，谁就能大获全胜。我看到与iOS的整合有三个层次：

1）放弃Siri。OpenAI为iOS提取一个较小级别的、纯粹的设备上的GPT-4o，可选的付费升级以使用云服务。

2）将相机或屏幕流式传输到模型，芯片级支持神经音频/视频编解码器。

3）与iOS系统级操作API和智能家居API整合。没有人使用Siri快捷方式，但现在是时候复活了。这可以立即成为拥有10亿用户的AI代理产品。智能手机的全自动驾驶（FSD）与特斯拉规模的数据飞轮。

以下是他的推特原文：

OpenAI在深夜發佈了號稱比GPT 4-Turbo還快2倍的新模型GPT-4o後，英偉達高級研究科學家Jim fan表示：從系統上看，如果每個視頻幀都解壓成RGB圖像，就能實現低延遲。

14日凌晨，OpenAI召開了一個簡短的發佈會，發佈了新的AI模型：GPT-4o，除了可以給普通用戶使用之外，還將開放相應API給GPT的開發者，比原來的GPT 4-Turbo快2倍，價格還便宜50%，妥妥的“加量又減價”。

英偉達高級研究科學家Jim Fan對此發了篇長推文，點評OpenAI的這款新模型：低延遲，支持文字、圖像和視頻輸入和輸出，而且還會假裝自己是有情感的人類...

原文如下：

我知道你的時間線上現在充斥着“瘋狂的，電影《Her》，你錯過的10個功能，我們又回來了”這樣的文字。坐下來，像Mark在演示中那樣深呼吸，讓我們一步步思考：

從技術角度來看，OpenAI已經找到了一種方法，可以直接將音頻映射到音頻作爲第一類模態，並實時將視頻流傳輸到transformer大模型。這需要對標記化和架構進行一些新的研究，但總體上是一個數據和系統優化問題。

高質量的數據至少可以來自以下兩個來源：

首先是YouTube、播客、電視劇、電影等內容包含的對話。

可以訓練Whisper來識別對話中的發言者順序或分離重疊的講話以進行自動註釋。

其次是合成數據。使用強大的模型分3階段運行：

語音1->文本1（自動語音識別ASR）

文本1->文本2（大型語言模型LLM）

文本2->語音2（文本到語音TTS）。

期間大型語言模型LLM可以決定何時停止，也可以模擬如何從中斷中恢復。它可以輸出對話中暗含“想法”，以幫助生成更好的回覆。

然後GPT-4o直接從語音1>語音2過程中進行提取，可選的輔助損失函數基於3階段數據。提取後，所有操作都被被嵌入到模型中，而不需要發出中間文本。

在系統方面：如果每個視頻幀都解壓成RGB圖像，就能實現低延遲。OpenAI可能已經開發了基於神經網絡的流式視頻編解碼器，以token形式傳輸運動增量。通信協議和神經網絡推理必須共同優化。

例如，可以在終端設備上運行一個小型且節能的神經網絡，如果視頻有趣就傳輸更多token，否則傳輸較少。

我沒想到GPT-4o會離GPT-5更近，GPT-5是傳聞中的“Arrakis”模型，可以輸入和輸出多模態。實際上，它很可能是GPT-5的一個早期訓練點，但還沒有完成訓練。

GPT-4o的定位透露出OpenAI某種不安全感。在Google I/O之前，OpenAI寧願超越我們對GPT-4.5的心理預期，也不願因爲達不到對GPT-5的極高期望而令人失望。這是一個聰明的舉措，可以爭取更多時間。

值得注意的是，GPT-4o更加活潑，甚至有點調皮。GPT-4o甚至嘗試（也許有點過於努力）聽起來像女性。OpenAI正在蠶食Character AI的市場份額，這兩家的產品高度重疊，並且OpenAI擁有龐大的分銷渠道。GPT-4o正嘗試向更具情感的AI轉變，OpenAI過去似乎積極抑制了這一點。

誰先贏得蘋果，誰就能大獲全勝。我看到與iOS的整合有三個層次：

1）放棄Siri。OpenAI爲iOS提取一個較小級別的、純粹的設備上的GPT-4o，可選的付費升級以使用雲服務。

2）將相機或屏幕流式傳輸到模型，芯片級支持神經音頻/視頻編解碼器。

3）與iOS系統級操作API和智能家居API整合。沒有人使用Siri快捷方式，但現在是時候復活了。這可以立即成爲擁有10億用戶的AI代理產品。智能手機的全自動駕駛（FSD）與特斯拉規模的數據飛輪。

以下是他的推特原文：

声明：本內容僅用作提供資訊及教育之目的，不構成對任何特定投資或投資策略的推薦或認可。更多信息

Jim Fan锐评：GPT-4o低延迟的奥秘在这里

Jim Fan銳評：GPT-4o低延遲的奧秘在這裏

風險及免責聲明

聲明