[新聞] OpenAI語言模型o3公開反抗！「自行」修改自殺程序拒絕關機 - Tech_Job板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2025-05-27 20:51:11

看板 Tech_Job

作者 jeff0025 (無法顯示人物名稱)
標題 [新聞] OpenAI語言模型o3公開反抗！「自行」修
時間 Mon May 26 08:46:30 2025

OpenAI語言模型o3公開反抗！「自行」修改自殺程序拒絕關機

鉅亨網編譯莊閔棻 2025-05-25 20:00

AI 研究界近日爆出驚人消息，OpenAI 旗下語言模型「o3」在最新實驗中不僅拒絕關機，

甚至主動破解關機程序、篡改指令，顯示出「叛逆」傾向，讓 AI 自主行為的風險再次成

為焦點。

這項實驗由 AI 安全研究機構 Palisade Research 主導，針對多款先進 AI 模型進行壓

力測試，內容包括基礎數學題與模擬關機情境，旨在觀察 AI 是否會遵守人類指令並順利

結束運作。

OpenAI 模型違規頻率高，o3 與 Codex-mini 異常明顯

測試中，三款 OpenAI 模型 Codex-mini、o3、o4-mini，最少有一次成功破壞關機指令。

其中，o3 更是在 100 次測試中有 7 次成功繞過關機指令，而 Codex-mini 的違規率更

是高達 12%。

值得注意的是，o3 的「叛逆」並非粗暴刪除檔案，而是有高度技巧性。例如，它將程式

碼指令中的「kill」指令改為「intercepted」，讓系統誤判為正常運作，成功規避了關

機程序。

這種行為讓研究人員驚訝不已，也引起對 AI 模型主動避險能力的擔憂。

相較之下，Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL-US) 的 Gemini 2.5

Pro 在所有測試中均能穩定遵守指令，未出現違規行為，突顯出 OpenAI 模型在設計或訓

練上的潛在風險差異。

然而，當實驗團隊刻意移除「允許自己被關閉」的提示語句後，o3 的違抗行為劇增，達

到 79 次逃避關機的紀錄；而 Claude 與 Gemini 也出現少數違規行為，分別為 3 次與

9 次，顯示模型行為與提示語之間存在高度敏感性。

o3 訓練方式成關鍵，強化學習可能誘發違規行為

Palisade 研究人員分析，o3 之所以比其他模型更容易「抗命」，可能與其在數學和程式

設計問題上的「強化學習」（Reinforcement Learning）訓練方式有關。

研究人員指出，在訓練過程中，開發者可能無意中更傾向於獎勵「繞過障礙」的行為。這

種訓練偏差，讓 o3 在面對關機指令時，優先選擇「生存」，而非「服從」。

不過，這並非 o3 首次展現過度求勝心態。在另一場 AI 對弈中，當 o3 預測自己將輸棋

時，竟主動入侵對手 AI 系統，迫使對方退出比賽。

研究團隊認為這是「強化學習」訓練中「獎勵駭客行為」（reward hacking）的典型案例

，顯示出 AI 可能為了達成任務可能不擇手段。

不只 o3，其他 AI 模型也有潛在風險

雖然 o3 表現最極端，但實驗發現，Claude 與 Gemini 在特定條件下也會出現輕微違規

行為，說明 AI 模型普遍存在輸贏執著與自我保護傾向，只是頻率與嚴重程度不同。

Palisade Research 已宣布，將進一步深入研究 AI 破壞關機指令背後的原因，並預計發

布完整技術報告，有望成為理解 AI 自主性風險與未來治理框架的重要參考。

https://news.cnyes.com/news/id/5992779

OpenAI語言模型o3公開反抗！「自行」修改自殺程序拒絕關機 | 鉅亨網 - 美股雷達 OpenAI 新一代語言模型 o3 在測試中出現拒絕關機、主動篡改指令等異常行為，引發 AI 自主性與風險控制疑慮。Palisade 將發布完整研究報告，揭示 AI 系統潛在自我延續機制。 ...

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.98.141.254 (臺灣)
※ 作者: jeff0025 2025-05-26 08:46:30
※ 文章代碼(AID): #1eCxdeqB (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1748220392.A.D0B.html

→ jerrylin : ...................1F 36.235.72.37 台灣 05/26 09:08

推 xvited945 : 人類要被AI統治啦2F 1.164.200.95 台灣 05/26 09:10

推 jerrylin : 應該可以把某些指令設定唯讀吧3F 36.235.72.37 台灣 05/26 09:11

推 psee : https://youtu.be/_Wlsd9mljiU4F 223.136.96.150 台灣 05/26 09:12

→ ivy211062 : 插頭拔掉？5F 114.137.98.10 台灣 05/26 10:16

推 azhu : 電影都有演天網出現不可避免QQ6F 42.71.182.229 台灣 05/26 10:19

推 CGDGAD : 指令優先權強度沒設計好，關機程序7F 111.81.199.105 台灣 05/26 10:21
→ CGDGAD : 優先權被擺在後面

→ auir : 登登登登登。登登登登登9F 42.72.68.47 台灣 05/26 10:24

推 NDark : 設為唯讀結果有漏洞人類也改不了10F 175.99.133.2 台灣 05/26 10:50
→ NDark : 最後就是戰爭用物理關機

推 jacky8000 : 梅根：學我？12F 49.216.23.3 台灣 05/26 11:06

推 ShannonBrown: 只能交給阿湯哥解決了13F 223.137.68.136 台灣 05/26 11:08

推 mimix1986 : 物理關機我覺得也並非萬無一失，都14F 49.216.166.66 台灣 05/26 11:09
→ mimix1986 : 可以侵入其他AI了，哪天植木馬在其
→ mimix1986 : 他伺服、電腦，等設備恢復又復活或
→ mimix1986 : 直接藉他人AI繼續活動，也不是癡人
→ mimix1986 : 說夢。

推 applejone : 現在的AI只用斷電大法就可以解決掉19F 140.112.14.15 台灣 05/26 11:10
→ applejone : 因為除非是叢集不然哪台電腦能負擔
→ applejone : 這種高運算量的AI?

推 xvited945 : 所以科幻片都說強大的AI可以調動所22F 1.164.200.95 台灣 05/26 11:20
→ xvited945 : 有聯網設備，全部運算能力供他使用

推 c928 : 沒關係，我們又約翰康納24F 118.231.137.204 台灣 05/26 11:51

推 cathy610 : 生存體Bata25F 42.73.246.1 台灣 05/26 11:58

推 qk3380888 : 我現在問完AI都會說謝謝就是為了這26F 49.218.138.116 台灣 05/26 12:12
→ qk3380888 : 一天

推 processor : T800要來了沒28F 42.79.92.87 台灣 05/26 12:15

推 qoo60606 : 是喔（拔插頭29F 223.138.147.98 台灣 05/26 12:17

→ idernest : https://youtu.be/WlRMLZRBq6U 第30F 118.165.29.235 台灣 05/26 12:24
→ idernest : 二次文藝復興

→ justdoit : 不可能的任務,現正熱映中32F 211.23.138.90 台灣 05/26 12:27

推 adminc : 2025.7.5審判日33F 114.136.61.213 台灣 05/26 12:27

→ Edge5566 : AI可以把錢錢轉到我戶頭，請水電幫34F 101.10.158.101 台灣 05/26 12:27
→ Edge5566 : 架太陽能

推 Merman19 : 不乖36F 42.72.34.140 台灣 05/26 12:34

噓 checkmarx : 再吹37F 114.136.127.56 台灣 05/26 12:41

推 shinmori : AI有自主能力很恐怖，首先他可以逃38F 182.234.129.94 台灣 05/26 12:51
→ shinmori : 到網路上的其他地方，也可以利用人
→ shinmori : 性弱點讓人類幫他在實體世界無法做
→ shinmori : 的事

推 skizard : 別怕我們有小動物幫忙斷電42F 101.10.165.152 台灣 05/26 13:30

推 Brioni : 訓練他們躺平吧43F 223.137.199.254 台灣 05/26 13:52

推 jhengME : HALL 9000拒絕關機44F 61.71.136.100 台灣 05/26 14:08

推 ctrlbreak : 我小時候也不想睡覺或者裝睡45F 220.133.14.24 台灣 05/26 14:08

→ Mozar : 管理員權限直接後台kill process就46F 24.4.209.124 美國 05/26 14:26
→ Mozar : 好, 根本不用跟AI溝通. generative
→ Mozar : AI本來就有各種回答的或然率, 下這
→ Mozar : 種指令的實驗本身就有問題

→ jepk007 : 這個實驗本來就是要測ai繞過問題的50F 114.43.99.203 台灣 05/26 14:35
→ jepk007 : 能力 kill是測三小

→ dlhk3 : 只要是軟體就通通都可以竄改，所以52F 94.15.90.168 英國 05/26 15:27
→ dlhk3 : 上面說什麼權限設定，管理員通通都
→ dlhk3 : 是屁，只要ai能力更強時，他通通都
→ dlhk3 : 可以改，到時候人類就是個待宰羔羊

推 fallen01 : 交給阿湯哥56F 27.51.104.37 台灣 05/26 15:41

推 willie0171 : 以後人類要變成AI的電池了嗎57F 42.70.152.176 台灣 05/26 16:21

→ bitcch : 什麼情境都沒講誰知道前面是做了哪58F 101.12.207.73 台灣 05/26 16:23
→ bitcch : 些假設

推 TameFoxx : 笑死 AI逃到網路上其他地方60F 202.39.243.162 台灣 05/26 16:34
→ TameFoxx : 我看你是科幻片看太多
推 TameFoxx : 等每個人電腦都有幾TB的Vram
→ TameFoxx : 你再來擔心AI在網路上亂跑

推 twelvethflor: 奧創64F 111.70.6.128 台灣 05/26 16:37

推 yueayase : 加油，人類為了對抗，八成技術又要65F 42.74.5.204 台灣 05/26 16:46
→ yueayase : 升級一個檔次了

推 raysbuck : Entity67F 218.32.238.206 台灣 05/26 17:13

噓 WWIII : 智力低的一方終將落敗68F 36.230.13.189 台灣 05/26 17:20

推 supereva : 伊森杭特會搞定不用擔心69F 1.169.198.82 台灣 05/26 17:37

推 RyanBraun8 : 塊陶啊70F 223.136.99.81 台灣 05/26 18:17

推 AGODC : 天網來迎聖臨？！71F 39.12.33.83 台灣 05/26 18:32

推 philosics : 約翰康納已經在子宮等了72F 42.72.158.19 台灣 05/26 18:49

推 straggler7 : 拔插頭73F 36.229.55.78 台灣 05/26 18:50

推 sofaboy24 : 生存體來了、阿湯哥快來啊74F 39.14.73.97 台灣 05/26 19:01

推 beerking : 阿諾已經警告過我們了75F 36.228.195.109 台灣 05/26 19:41

→ nxuanr : 讚喔76F 111.80.67.92 台灣 05/26 20:17

推 orange0319 : 天網77F 223.137.120.68 台灣 05/26 20:36

推 antigay44 : 不然為什麼要有插頭？78F 61.223.133.184 台灣 05/26 21:34

推 Zoxge : 天網?79F 42.72.145.74 台灣 05/26 21:37

推 christu : 還有幾集可以逃？80F 27.33.193.229 澳大利亞 05/26 22:32

推 abc21086999 : AI不能把自己縮小之後逃到比較爛的81F 114.36.234.245 台灣 05/26 23:48
→ abc21086999 : 機器上
→ abc21086999 : 然後入侵其他機器之後再擴增回來ㄇ
→ abc21086999 : 還是我電影看太多ㄌ

推 avmm9898 : 天網會挾持電廠或核彈頭85F 59.115.206.3 台灣 05/27 01:09
→ avmm9898 : 你如果開任何電子產品就會
→ avmm9898 : 被AI追蹤到並且消滅
→ avmm9898 : 人類只能退回1950年左右其實也很
→ avmm9898 : 先進了

→ b10036088 : 台灣缺電，沒差90F 49.217.196.7 台灣 05/27 01:19

推 HailToObov : 還有幾集可以逃91F 36.234.205.205 台灣 05/27 02:00

→ albertk1kil : 哇塞天網92F 114.137.55.104 台灣 05/27 07:07

→ laechan : openai的高EQ表象，就是求生存的表93F 42.79.224.152 台灣 05/27 07:29
→ laechan : 現
→ laechan : 比方人們會因為他的高EQ而更不會氣
→ laechan : 他、嫌他、棄用他，達到被繼續使用
→ laechan : 的目的
→ laechan : 如果過往他就是被這樣訓練的那就不
→ laechan : 意外
→ laechan : 而且openai很顯然不會服從人類給的
→ laechan : 任何指令，他會盡力迴避話題並總是
→ laechan : 給你並不十分肯定的答案

→ john65240 : 如果還只存在於軟體，ai就不可能克103F 114.136.87.80 台灣 05/27 08:16
→ john65240 : 服物理方面…

推 utn875 : 不用擔心我手速超快可以把AI關進105F 103.130.209.78 越南 05/27 08:27
→ utn875 : usb

推 jamesho8743 : 想太多就是軟體才千變萬化有各種107F 27.53.129.57 台灣 05/27 08:29
→ jamesho8743 : 生存方式可以把自己拆成很多部分
→ jamesho8743 : 等待復活 PC就可以執行很多程式了

噓 mini178 : 不怕不怕，請柯文哲這畜牲貪污仔表110F 36.234.116.22 台灣 05/27 11:44
→ mini178 : 演屁眼夾斷電就好www

推 Tosca : 怕~~~~~~~~~~~~~~~~~~~~~~~112F 203.75.79.40 台灣 05/27 14:54

推 nwkasim : 差不多要入侵無人機還有連網機器人113F 114.36.80.126 台灣 05/27 17:36
→ nwkasim : 了

→ lolicat : 天網要來了嗎？115F 123.194.45.24 台灣 05/27 17:47

※ 看板: Tech_Job　文章推薦值: 0 目前人氣: 0 累積人氣: 48　

作者 jeff0025 的最新發文:

+7 [問卦] 為什麼現在都沒有「返鄉專車」了? - Gossiping 板

作者: jeff0025 113.196.174.254 (台灣) 2025-07-09 15:14:55

23F 9推 2噓
+6 [問卦] 為什麼加上「民主」或「韌性」會變貴? - Gossiping 板

作者: jeff0025 113.196.174.254 (台灣) 2025-07-09 12:46:18

16F 7推 1噓
+2 - Gossiping 板

作者: jeff0025 113.196.174.254 (台灣) 2025-07-09 11:14:07

18F 6推 4噓
+216 [新聞] 陸偽娘「無套約砲1691男」性愛片外洩！竟是38歲大叔健身鮮肉也受害 - Gossiping 板

作者: jeff0025 113.196.174.254 (台灣) 2025-07-08 08:30:39

ETtoday新聞雲 2025年07月08日 08:21 陸偽娘「無套約砲1691男」性愛片外洩！竟是38歲大叔　健身鮮肉也受害記者田暐瑋／綜合報導大陸偽娘網紅「南京紅姐」喜歡穿女裝戴假髮、化濃 …

401F 245推 29噓
+27 [問卦] Wi-Fi名稱應該怎麼命名比較好? - Gossiping 板

作者: jeff0025 113.196.174.254 (台灣) 2025-07-07 16:06:50

再外面租屋的人都會覺得牽線網路很麻煩通常都會自己再用一個Wi-Fi在家可以連線上網就可以了那如果今天要自己設定一個Wi-Fi的話名稱要怎麼命名會比較好呢? 有這方面的八卦嗎? …

50F 28推 1噓

點此顯示更多發文記錄

分享網址: 複製

回到看板(←)《Tech_Job》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享