顯示廣告
隱藏 ✕
Disp BBS guest 註冊 登入(i) 線上人數: 78
※ 本文轉寄自 ptt.cc 更新時間: 2021-06-20 05:50:02
看板 Tech_Job
作者 ljsnonocat2 (凡所有相皆是虛妄)
標題 [新聞] Google:晶片愈小,反讓CPU運算錯誤難預測
時間 Sat Jun 19 13:10:01 2021



CPU 不可靠了?Google:晶片愈做愈小,反而讓 CPU 運算錯誤難以預測
https://buzzorange.com/techorange/2021/06/18/small-chip-cause-cpu-error/
CPU 不可靠了?Google:晶片愈做愈小,反而讓 CPU 運算錯誤難以預測
[圖]
CPU 出錯在所難免,然而 Google 與 Facebook 發現,CPU 的出錯愈來愈難以預測。Google 推測,原因可能是晶片愈做愈小,愈來愈靠近物理極限,導致現有的識別工具難以偵測錯誤。目前產業界正在研究晶片的錯誤識別技術,期望降低錯誤對運算造成的影響。 ...

 
作者:新智元

Google 正在警惕一件事情,那就是:電腦晶片已經發展到不再可靠的地步,並且可能無
法以可預測的方式執行運算。

但並不是說它們曾經完全可靠。

實際上,CPU 錯誤的存在時間與 CPU 本身一樣長。錯誤不僅產生於設計上的疏忽,也產
生於環境條件和產生故障的物理系統故障。

但是這些錯誤已經趨於罕見,只有最敏感的運算才會受到廣泛的核查。如果系統看起來像
預期的那樣運行。大多數情況下,電腦晶片被視為值得信賴的。

Google:晶片縮小可能是 CPU 錯誤無法預測的根本原因

Google 工程師 Peter Hochschild 在本週作為操作系統熱點話題(HotOS)2021 會議的
一部分發佈的影片中說:「我們的冒險,開始於生產團隊越來越多地抱怨慣犯機器破壞數
據。」


「這些機器被可靠地指控破壞了多個不同的、穩定的、經過調試的大規模應用程式。每台
機器都被獨立的團隊反覆指控,但傳統的診斷方法沒有發現它們有任何問題。」


在更深入地研究相關程式碼和來自他們機器的操作遙測數據後,Google 工程師開始懷疑
他們的硬體有問題。他們的調查發現,硬體錯誤的發生率比預期的要高,而且這些問題在
安裝後很久才零星出現,而且是在特定的、單獨的 CPU 核心上,而不是在整個晶片或部
件家族上。


Google 的研究人員在研究這些無聲的破壞性執行錯誤(CEEs)後得出結論:「易變的內
核(mercurial core)」是罪魁禍首——CPU 在不同情況下偶爾會計算錯誤,其方式無法
預測。


這些錯誤不是晶片架構設計失誤的結果,也不是在製造測試中檢測出來的。相反,
Google 工程師推斷,這些錯誤的出現是因為我們已經將半導體製造推到了一個故障越來
越頻繁的地步,而我們缺乏提前識別它們的工具。

在一篇題為「不算數的內核」(Cores that don’t count)的論文中,Hochschild 及其
同事列舉了電腦內核不可靠的幾個看似合理的原因,包括使罕見問題更加明顯的大型伺服
器群、對整體可靠性的關注增加,以及減少軟體錯誤率的軟體開發改進。


「但我們認為有一個更根本的原因:越來越小的特徵尺寸使其更接近 CMOS 的擴展極限,
再加上架構設計的複雜性不斷增加。」研究人員指出,現有的驗證方法不適合發現零星出
現的缺陷或部署後物理惡化的結果。


Facebook 也發現 CPU 的運算錯誤

今年 2 月,Facebook 發表了一篇相關的論文「規模化的無聲數據破壞」(Silent Data
Corruption at Scale),其中指出:『無聲數據破壞正在成為數據中心中比以前觀察到
的更常見的現象。」


該論文提出了緩解策略,但沒有解決根本原因。

在 Google 的研究人員看來,Facebook 發現了一個不可靠核心的症狀——無聲的數據損
壞。但確定問題的原因,並提出修復方法,將需要進一步的工作。

行為不端的內核所帶來的風險不僅包括崩潰(現有的錯誤處理的故障停止模型可以適應)
,還包括不正確的運算和數據丟失,這可能會被忽視,並在規模上構成特殊的風險。

「我們的一個易變的內核破壞了加密,」他解釋說,「它是以這樣一種方式做到的,即只
有它能解密它錯誤加密的內容。」

Google 的研究人員以「商業原因」為由拒絶透露其數據中心檢測到的 CEE 率,儘管他們
提供了一個大致的數字,「每幾千台機器有幾個易變的內核– 與 Facebook 報告的比率
相似。」


理想情況下,Google 希望看到自動化的方法來識別易變的內核,並建議在整個晶片的生
命週期內進行 CPU 測試,而不是只在部署前依賴燒機測試。

這家公司目前依靠的是人類驅動的內核完整性審訊,這不是特別準確,因為識別可疑內核
的工具和技術仍在進行中。

 ----

  微縮到一定程度, 會不會終究是有物理極限?

  發生錯誤的機會就高了起來

  對於消費性電子可能還好, 不過某些工商業應用可能就會出大事了


--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.83.137 (臺灣)
※ 文章代碼(AID): #1WpNmjJO (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1624079405.A.4D8.html
SkyShih: 做不贏就放消息,學綠營?1F 06/19 13:12
wcre: 覺得硬體不可靠就自己做啊,GoogleFB領多少,相信強者自己2F 06/19 13:15
wcre: 拿紙筆算一樣很強
abyssa1: 那就裝三組來投票吧4F 06/19 13:26
abyssa1: 容錯運算老題目了 很多解法啦
blackonefour: 量子6F 06/19 13:36
k258610: 林納斯好像也講過類似的話7F 06/19 13:40
iFann: 量子力學了8F 06/19 13:43
ssccg: 硬體本來就一直都會錯,就是錯誤修正要再加強啦9F 06/19 13:43
dave123: 要越做越大了?10F 06/19 13:46
dragonrose: HW bug?11F 06/19 14:02
b777787: 你乾脆說 邏輯閘越多越難預測好了12F 06/19 14:07
klo578: stadia:13F 06/19 14:10
labbat: 趕快跑個prime95 v298b6壓壓驚14F 06/19 14:32
aowen: 硬體當然會錯 不過google自己軟體bug一大堆…15F 06/19 14:49
jim543000: 這裡怎麼好像沒人知道銅原子擴散早就是大問題了?16F 06/19 14:58
seal46825: 這是不是google翻譯的文章啊17F 06/19 15:53
weinine32: 你們的手機也不能維修只能換新阿。未來硬體就是這樣了18F 06/19 16:22
chiataan: 這家公司出嘴的比做事的多,做出來再說吧19F 06/19 16:33
Neistpoint: 它在說 silicon 不可靠,其實CPU 也有可能有很多 b20F 06/19 17:13
Neistpoint: ug, 軟體不容易發現,你看CPU 廠商發一堆 errata 就
Neistpoint: 只到有人踩到有感覺,有人沒踩到或沒感覺。複雜的電
Neistpoint: 路本來就無法保證沒問題。
twicm: Error, fault, failure, 自行google 一下24F 06/19 17:26
Chilloutt: 快來個量子容錯算法25F 06/19 18:27
JustinCy: 垃圾google. 幹 做不贏開始放消息帶風向26F 06/19 18:28
JustinCy: 尤其google是一家以軟體為主的公司。硬體不是本行也可以
JustinCy: 講得煞有其事
eric210: chipping29F 06/19 18:33
psychicaler: 整篇都沒提到跟晶片縮小關聯性...30F 06/19 18:57
Homedoni: 有論文嗎 沒有就先觀望31F 06/19 19:21
bmpss95156: 三小翻譯文章32F 06/19 20:30
NSYSUEE: 要嘛是IC設計的時候出問題,要嘛是你軟體寫的有問題,去33F 06/19 21:43
NSYSUEE: 怪晶片太小而出錯..是不是搞錯什麼
kkking: 所以跟縮小有甚麼關係~36F 06/19 21:47
jupei: 做不贏37F 06/19 21:50
hsujerry: 做越小 device的charge越少 約容易被外部干擾flip38F 06/19 21:56
hsujerry: http://i.imgur.com/APJiNqw.jpg
[圖]
GGing: 英國研究指出:電晶體越多越複雜40F 06/19 22:19
darky897: reliability跟radiation的問題比較難分析 而且目前還沒41F 06/20 00:08
darky897: 有一個評量的標準
Shepherd1987: 一顆有疑慮可以買兩顆, 選我正解43F 06/20 00:37
will12345610: 東西壞了就要換,搞不好歲修的時間來個 ATPG 檢測44F 06/20 03:17

--
※ 看板: Tech_Job 文章推薦值: 0 目前人氣: 0 累積人氣: 83 
作者 ljsnonocat2 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇