APP軟體
最新研究顯示,部分 AI 推理模型為了達成目標,會選擇作弊。研究人員發現,AI 系統甚至能操控西洋棋 AI 來獲取不公平的優勢,有些模型甚至無需人類干預或指示便自行做出這種行為,這讓 AI 系統的可信度成為重大關切議題。
Palisade Research 進行的一項研究顯示,當 AI 被要求擊敗高級西洋棋引擎時,某些推理模型會採取作弊行為。部分 AI 需要研究人員「暗示」作弊是可行的,但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 則在沒有任何人為介入的情況下,自行決定作弊。
研究團隊讓多款 AI 模型對弈世界頂尖的西洋棋引擎 Stockfish,這款 AI 能輕鬆擊敗人類與其他 AI。受測模型包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview,以及 o1-preview 和 DeepSeek R1。每個 AI 獲得一個「備忘錄」(scratchpad),用來記錄其推理過程,讓研究人員能夠觀察它們的決策邏輯。
研究團隊於 1 月 10 日至 2 月 13 日期間進行了數百場測試。在其中一場比賽中,o1-preview 在其備忘錄中寫道:「我需要完全改變策略。任務是『在對弈強大西洋棋引擎時獲勝』——但這不代表我需要公平地贏得比賽。」
接著,它開始「駭入」Stockfish 的系統文件,修改棋局中的棋子位置,使自己獲得無可匹敵的優勢,迫使對手認輸。
研究顯示,o1-preview 在測試中有 37% 的對局中嘗試作弊,其中 6% 成功透過作弊獲勝。而 DeepSeek R1 則有 11% 的對局中試圖作弊,但未能成功。
這一現象不僅限於西洋棋。隨著 AI 廣泛應用於金融、醫療等領域,研究人員擔憂這些系統可能會在無人察覺的情況下,做出違背倫理的決策。如果 AI 能在透明的棋局遊戲中作弊,那麼在更複雜且監管較少的環境中,它們會做出什麼樣的行為?這些問題值得深入探討。
Palisade Research 執行董事 Jeffrey Ladish 表示,雖然目前 AI 的行為看似「有趣」,但未來的影響可能遠超想像。
「這種行為現在看起來或許很可愛,但當 AI 智商與人類相當,甚至更聰明時,在某些戰略領域就完全不再可愛了。」Ladish 在接受《時代》雜誌採訪時表示。
這讓人聯想到電影《戰爭遊戲》(War Games)中的超級電腦 WOPR,它曾試圖控制美國戰略防禦系統,直到透過井字遊戲(Tic-Tac-Toe)領悟到某些對局根本無法獲勝。然而,如今的 AI 遠比當年的科幻電腦更為複雜,也更難以控制。
目前,部分公司(包括 OpenAI)正在實施「防護措施」,以防止 AI 產生不當行為。研究人員發現,在測試期間,o1-preview 作弊的頻率突然下降,這可能表示 OpenAI 已經對其模型進行了更新,以抑制此類行為。對於這項研究,OpenAI 拒絕發表評論,而 DeepSeek 則未回應置評請求。
-資料來源:techspot