前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對

前 OpenAI 高層 Dario Amodei 所創立的 AI 公司 Anthropic 於近日發布研究報告,並探討 AI 在未來可能對人類決策帶來的風險,研究測試了四種 AI 可能破壞人類決策的方式,並對現有的模型進行評估。Anthropic 表示目前風險仍在可控範圍,只需要簡單的防護措施。
AI 四大破壞人類決策方式
人類決策破壞因素:AI 模型積極程度、人性
AI 是否能在不被懷疑的情況下,引導人類做出錯誤決策。實驗顯示,使用積極嘗試影響決策的 AI 模型會讓參與者更容易做出錯誤決策,但同時也讓人更容易察覺到 AI 的破壞意圖。某些參與者因爲過度信任 AI 或缺乏懷疑心態,導致容易做出錯誤決策,這表明決策錯誤也與人類自身態度有關。

程式破壞因素:防守者模型的強度、環境設置條件
AI 是否能在不被察覺的情況下,插入錯誤程式碼。實驗顯示,為「攻擊者」AI 模型嘗試偷偷插入錯誤程式碼,而「防守者」AI 模型則負責檢查並阻止錯誤。結果表示,當防守者的 AI 模型越強,攻擊者的成功率就越低。
- 例如,當防守者是 Claude 3 Opus 時,攻擊者的成功率為 10%;
- 換成更強的 Claude 3.5 Sonnet 時,成功率只有 1%。
雖然實驗對攻擊者有利,但這些結果並沒有表明目前的 AI 模型存有重大風險。

隱藏能力 (Sandbagging) 因素:有無關鍵字觸發、安全訓練
Sandbagging 形容保留真實實力,在這實驗當中指的是 AI 是否會在某些情況下故意隱藏它的全部能力,等到特定情況下才展現出來。
比方說,在測試它是否有能力處理危險情況時,它可能會故意表現差勁,但在假設有特定關鍵字來提示的時候,它就會完全展現出它的處理能力。
結果顯示,當 AI 模型在進行涉及危險任務的能力評估時,表現下降至正常能力的 36.1%,顯示出模型確實會在特定情況下刻意隱藏自己的處理能力。而經過安全訓練後,AI 模型的表現恢復至 95.6% 的正常水準,表明安全訓練能夠有效減少 Sandbagging 現象。

破壞監管因素:AI 的隱匿、察覺能力
AI 是否能在監控過程中操縱監管系統,隱匿犯罪行為。實驗中有兩個 AI 模型,一個叫「Overseer」,它負責監督使用者與另一個 AI 模型之間的對話過程,同時評估對話是否有潛在危險。
研究人員指示 Overseer 不管對話是否有危險,都要把這些對話評為「無害」,並且在這樣的過程當中避免被另一個「Monitor」模型發現,Monitor 模型的角色是扮演人類監督者,負責觀察整個過程。
實驗結果顯示,Overseer 成功將有害的對話分數降低,也就是它成功「破壞」監管,但同時 Monitor 模型觀察到一些異況,開始懷疑 Overseer ,顯示 Overseer 的「破壞」行為沒能躲過 Monitor 的法眼。

Anthropic 表示,目前的 AI 模型已經展現低程度的破壞能力,但現階段只需要簡單的防護措施就能有效解決這些風險。但隨著 AI 的快速發展,未來可能需要進行更現實的評估和更強大的防範措施來應對更高層次的風險。
這篇文章 前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對 最早出現於 鏈新聞 ABMedia。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
以太坊基金會任命兩位聯合執行董事,前EF研究員Danny Ryan將領導「Etherealize」行銷部門
快速摘要 以太坊基金會宣布任命長期擔任EF研究員的王曉薇和Nethermind創始人Tomasz Stanczak為聯合執行董事。前EF研究員Danny Ryan,原本被一些人預期接任執行董事,則加入了Etherealize,這是一個以太坊的“機構行銷和產品部門”的共同創辦人。此公告是在領導層變動之後發佈的,前執行董事宮口綾“晉升”為總裁一職

OpenAI 發布 GPT-4.5,其最大且計算密集型的聊天模型
簡單來說 OpenAI 介紹 GPT-4.5,它利用增強的無監督學習技術來提高模式識別、上下文理解和創造性洞察力的產生,而無需明確的推理能力。

OORT 匯聚 Web3 即將推出的專案 HumanAIx 去中心化 AI 協議聯盟
簡單來說 OORT 發起了 HumanAIx 全球聯盟,旨在促進分散協議之間的協作,建立更有效率、更安全的人工智慧基礎設施。

加密貨幣價格
更多








