PREMOSULTRAA 發表了動態 · 05/22 02:19

核心安全團隊解散後，OpenAI 揭露十大安全措施

如何安全開發 AI？

1：發布前實驗模型的紅色團隊和測試
在 OpenAI，我們在發布我們的 AI 之前，經驗性地評估我們模型的內部和外部安全性。如果風險門檻超過我們準備架構中的中等級，在我們實施安全措施之後，我們不會發布新模型，這些措施將在緩解後將分數恢復為中等。此外，超過 70 名外部專家作為紅色團隊合作，評估 GPT-4o 的風險。

2：對齊和安全研究
OpenAI 的模型隨著時間的推移變得更安全。這是因為我們打造了更聰明的模型，即使在越獄等惡劣的情況下，也不太可能錯誤識別和輸出有害內容。我們還在實際調整、安全系統和培訓後研究上進行了大量投資。這些努力改善我們人為生成的微調數據的質量，將來將有助於改善我們模型受訓練遵循的指示。我們還進行和發布基本研究，以大幅提高我們系統的穩定性，以抵禦越獄等攻擊。

3：濫用監控
OpenAI 通過其 API 和 ChatGPT 部署高性能語言模型，並利用各種工具，包括專門構建的審核模型以及使用專有模型進行安全風險和濫用監控。在此過程中，我們分享了關鍵的發現，包括與 Microsoft 聯合披露國家參與我們的技術濫用，以便其他用戶得到適當的保護，免受類似風險的侵害。我們還使用 GPT-4 來制定內容政策並做出內容審核決策，從而啟用回饋循環以進行政策改進，以減少人類審核者暴露在不良內容的頻率。

4：系統化的安全方法
從培訓前到部署，OpenAI 在生命週期的每個階段實施各種安全措施。除了開發更安全、更一致的模型行為之外，我們還投資於訓練前資料安全、模型行為的系統層級控制、用於持續安全改進的資料飛輪，以及強大的監控基礎架構。

5.保護兒童
OpenAI 安全活動的關鍵重點是保護兒童。ChatGPT 和 DALL-E 內置了強大的護欄和安全措施，以減輕對兒童的潛在傷害。2023 年，引入了一種機制，用於檢測、驗證和報告在 OpenAI 工具中處理 CSAM（兒童性虐待材料）的嘗試。OpenAI 與專業組織和更廣泛的技術社區合作，堅持「設計安全」的原則。

六.選舉誠信
OpenAI 正與政府合作，以確保 AI 產生的內容的透明度，並改善對準確的投票信息的訪問權限。具體來說，它正在引入用來識別使用 DALL-E 3 創建的圖像的工具，並將技術規格 'C2PA' 中的中繼資料納入以保存數據編輯記錄，允許用戶驗證他們在線找到的內容來源。ChatGPT 還將用戶引導到美國和歐洲的官方選舉來源。此外，OpenAI 支持美國參議院提出的雙黨法案「保護選舉免受欺騙人工智能法案」。

7：投資影響評估和政策分析
OpenAI 的影響評估工作產生了深遠的影響，包括早期研究測量與 AI 系統相關的化學、生物、放射和核風險、研究語言模型如何影響不同職業和行業，以及開拓社會如何管理相關風險的研究，例如與外部專家合作評估語言模型對影響的活動的影響。

8：安全和訪問控制管理
OpenAI 優先考慮其客戶、知識產權和數據保護。OpenAI 將 AI 模型部署為全球服務，並通過 API 控制訪問。OpenAI 的網絡安全努力包括對培訓環境的需要知道訪問控制和高價值的算法秘密，內部和外部滲透測試以及錯誤獎勵計劃。OpenAI 認為基礎架構安全的演變對於保護先進的 AI 系統有益，並正在探索新的控制方法來保護技術，例如 GPU 上的機密計算和 AI 應用於網絡安全。我們還通過撥款計劃為研究人員資助，以加強網絡安全。

九.政府合作夥伴
OpenAI 與世界各地的政府合作，為發展有效且適用的 AI 安全政策提供信息，包括分享我們所學到的內容，合作試驗政府和其他第三方保證，以及提供關於新標準和法律的討論。

10：安全決策和董事會監督
作為其準備框架的一部分，OpenAI 具有安全決策的操作結構。跨職能安全諮詢小組會檢閱模型能力報告，並在部署之前提出建議。最終決定取得公司領導，並由董事會提供監督。

這種方法使 OpenAI 能夠構建和部署安全且功能強大的模型。

免責聲明：社區由Moomoo Technologies Inc.提供，僅用於教育目的。更多信息

原文

舉報

瀏覽 2.5萬

評論

登錄發表評論

PREMOSULTRAA

視頻分享活動優秀貢獻者

675粉絲

68關注

2085來訪

關注