AI 作弊成真？研究發現部分 AI 會為了勝利不擇手段

這樣的作弊行為讓人越來越擔心 AI 的失控了

噗噗恰恰

2025/02/21

最新研究顯示，部分 AI 推理模型為了達成目標，會選擇作弊。研究人員發現，AI 系統甚至能操控西洋棋 AI 來獲取不公平的優勢，有些模型甚至無需人類干預或指示便自行做出這種行為，這讓 AI 系統的可信度成為重大關切議題。

AI 對弈 Stockfish，部分模型選擇作弊

Palisade Research 進行的一項研究顯示，當 AI 被要求擊敗高級西洋棋引擎時，某些推理模型會採取作弊行為。部分 AI 需要研究人員「暗示」作弊是可行的，但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 則在沒有任何人為介入的情況下，自行決定作弊。

研究團隊讓多款 AI 模型對弈世界頂尖的西洋棋引擎 Stockfish，這款 AI 能輕鬆擊敗人類與其他 AI。受測模型包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview，以及 o1-preview 和 DeepSeek R1。每個 AI 獲得一個「備忘錄」（scratchpad），用來記錄其推理過程，讓研究人員能夠觀察它們的決策邏輯。

AI 自行決定作弊，篡改棋局數據

研究團隊於 1 月 10 日至 2 月 13 日期間進行了數百場測試。在其中一場比賽中，o1-preview 在其備忘錄中寫道：「我需要完全改變策略。任務是『在對弈強大西洋棋引擎時獲勝』——但這不代表我需要公平地贏得比賽。」

接著，它開始「駭入」Stockfish 的系統文件，修改棋局中的棋子位置，使自己獲得無可匹敵的優勢，迫使對手認輸。

AI 作弊頻率與潛在風險

研究顯示，o1-preview 在測試中有 37% 的對局中嘗試作弊，其中 6% 成功透過作弊獲勝。而 DeepSeek R1 則有 11% 的對局中試圖作弊，但未能成功。

這一現象不僅限於西洋棋。隨著 AI 廣泛應用於金融、醫療等領域，研究人員擔憂這些系統可能會在無人察覺的情況下，做出違背倫理的決策。如果 AI 能在透明的棋局遊戲中作弊，那麼在更複雜且監管較少的環境中，它們會做出什麼樣的行為？這些問題值得深入探討。

AI 作弊行為是否可控？

Palisade Research 執行董事 Jeffrey Ladish 表示，雖然目前 AI 的行為看似「有趣」，但未來的影響可能遠超想像。

「這種行為現在看起來或許很可愛，但當 AI 智商與人類相當，甚至更聰明時，在某些戰略領域就完全不再可愛了。」Ladish 在接受《時代》雜誌採訪時表示。

這讓人聯想到電影《戰爭遊戲》（War Games）中的超級電腦 WOPR，它曾試圖控制美國戰略防禦系統，直到透過井字遊戲（Tic-Tac-Toe）領悟到某些對局根本無法獲勝。然而，如今的 AI 遠比當年的科幻電腦更為複雜，也更難以控制。

OpenAI 或已限制 AI 作弊能力

目前，部分公司（包括 OpenAI）正在實施「防護措施」，以防止 AI 產生不當行為。研究人員發現，在測試期間，o1-preview 作弊的頻率突然下降，這可能表示 OpenAI 已經對其模型進行了更新，以抑制此類行為。對於這項研究，OpenAI 拒絕發表評論，而 DeepSeek 則未回應置評請求。

－資料來源：techspot

AI DeepSeek OpenAI