sponsored links

大規模系統中的亞健康故障(3)故障根因

我們現在討論內部根本原因,主要是韌體錯誤和裝置錯誤/磨損。我們根據硬體型別(SSD、磁碟、記憶體、網路和處理器)組織討論。

4.1 SSD

韌體錯誤和NAND快閃記憶體管理複雜性可能會觸發SSD的亞健康故障。

大規模系統中的亞健康故障(3)故障根因

韌體錯誤:我們收到了三份關於SSD韌體錯誤的報告,供應商承認了這一點。首先,許多本應只需要幾十微秒的單個IOs被精確地限制在250微秒的倍數,高達2-3毫秒。更糟糕的是,在另一份報告中,一批壞的SSD在幾秒鐘內停止響應,然後恢復。如前所述,操作員發現一些SSD從系統中“消失”,隨後又重新出現。經供應商檢查,SSD正在執行一些內部元資料寫入,觸發硬體斷言故障並重新啟動裝置。在所有這些情況下,沒有解釋韌體行為如此的原因(專有原因)。然而,下面的其他事件顯示了更多的潛在問題。

使用不同電壓進行讀取重試:為了讀取快閃記憶體頁,SSD控制器必須設定特定的電壓閾值。隨著快閃記憶體晶片的磨損,氧化物柵極中的電荷減弱,使得預設電壓閾值的讀取操作失敗,迫使控制器繼續以不同的電壓閾值重試讀取[10,11]。我們在現場觀察到高達4次重試。

基於RAIN/奇偶校驗的讀取重建:此外,如果資料無法讀取(即完全損壞且未透過ECC檢查),SSD必須使用RAIN(NAND級RAID)重建頁面[1,41]。有三個因素會使情況變得更糟。首先,如果RAIN寬度為N,N−1必須生成其他讀取以重建損壞的頁面。第二,N−1如上所述,讀取也可能會經歷讀取重試。第三,較新的基於TLC的SSD使用LDPC碼[40],這需要較長的時間來重建錯誤頁面。我們觀察到,這種重建問題經常發生在接近壽命結束的裝置中。此外,SSD工程師發現位翻轉的數量是上一次寫入時間、上一次寫入後的讀取次數、快閃記憶體溫度和快閃記憶體磨損量的複雜函式。

部分失敗的SSD中存在嚴重的GC:NAND快閃記憶體頁的垃圾收集(GC)已知是違反使用者SLA的主要原因[23、28、41]。然而,在現代資料中心SSD中,更高階的韌體成功地減少了對使用者的GC影響。實際上,有些SSD附帶了“壞”晶片。我們看到,隨著更多晶片死亡,過度配置區域的大小會減小,從而更頻繁地觸發GC,產生無法隱藏的影響。

透過次優磨損均衡破壞並行性:理想情況下,大型IO對映到並行通道/晶片,從而提高IO並行性。但是,磨損均衡(熱/冷頁面遷移到熱/冷塊)會導致LPN到PPN的對映始終發生變化。已經觀察到,一些罕見的工作負載行為可能會使磨損均衡演算法不理想,從而使順序LPN對映到相同的通道/晶片後面(並行性較低)。此外,上述不良頁面/晶片的問題還迫使磨損均衡演算法進行次優、並行性較差的頁面/塊對映。

高溫導致磨損、重複擦除和空間減少:高溫可歸因於外部原因(§5.1),但可導致SSD內部發生連鎖反應[31]。我們還觀察到,隨著溫度的升高,SSD頁面磨損更快,並且當SSD在更高溫度下執行時,存在電壓閾值建模失效的情況。因此,在塊擦除後,位沒有正確復位(並非所有位都變為“1”)。因此,某些塊必須多次擦除。請注意,擦除時間已經很長(例如,高達6毫秒),因此重複擦除會導致明顯的亞健康緩慢行為。更糟糕的是,由於一些塊在多次嘗試後無法正確重置,韌體將這些塊標記為不可用,從而減少了過度配置的空間,並隨後增加了GCs的頻率,如上所述。

寫放大:更快的磨損和更頻繁的GCs可導致更高的寫放大。值得報告的是,我們觀察到了不同程度的放大(例如,模型“A”為5倍,模型“B”為600倍,由於過早磨損,某些工作負載為“無法衡量”)。

並非所有晶片都是平等的:總之,上述大多數問題都是由於並非所有晶片都是平等的。壞晶片仍然透過供應商的測試,每個晶片都有一個質量值,只要透過質量控制標準,高質量晶片就會與低質量晶片混合。因此,給定SSD,存在不同的質量[10,36]。一些工作負載可能會導致低質量晶片出現更明顯的磨損,從而導致上述所有問題。

4.2 磁碟

與SSD類似,亞健康故障的磁碟也可能由韌體錯誤和裝置錯誤/磨損引起。

大規模系統中的亞健康故障(3)故障根因

韌體錯誤:我們收集了三份與導致速度減慢的磁碟韌體錯誤相關的報告。磁碟控制器將I/O請求延遲了四分之一秒。在另一個問題中,磁碟每隔幾秒鐘就會“抖動”,造成難以除錯的問題。在一個大型測試臺上,主節點上的RAID控制器暫停,但在重新啟動後,控制器工作,依然偶爾會超時和重試。最後,發生了一個事件,單個壞磁碟耗盡了RAID卡資源,導致許多IO超時(壞磁碟遮蔽的失敗案例)。

裝置錯誤:由大量磁碟損壞觸發,RAID控制器在執行時啟動頻繁的RAID重建;修復程式重新格式化了檔案系統,以便收集壞扇區,而不在儲存堆疊中使用。磁碟錯誤可能反覆出現;在一種情況下,具有“壞”狀態的磁碟會自動從儲存池中刪除,但當其狀態更改為“好”時,會重新新增,但好-壞連續轉換會導致影響使用者使用。一些運營商還觀察到媒體故障,這些故障迫使磁碟在返回作業系統之前多次重試每個讀取操作。最近的一項提案主張磁碟自動禁用壞盤並繼續部分工作(頻寬減少)[9]。

弱磁頭:磁碟“弱”磁頭的問題在故障排除討論中很常見[17,38],但根本原因尚不清楚。我們研究中的一份報告指出,從致動器元件溢位並在磁頭和碟片之間積聚的黏液會導致磁頭緩慢移動。隨著磁碟變得“更薄”,被截留的黏液的可能性增加。這個問題可以透過執行隨機IOs使磁頭“掃地”來解決。

其他原因:磁碟故障也可能由環境條件(例如,風扇以最大速度執行時產生的噪音和振動)或溫度(例如,磁碟在較冷的環境中寫入後進入讀取模式[19])引起,這將在後面討論(§5)。

4.3 記憶體

記憶體系統被認為是相當健壯的,但我們設法收集了一些證據,表明記憶體硬體也可能出現故障緩慢的故障。

大規模系統中的亞健康故障(3)故障根因

裝置錯誤:在部分記憶體錯誤的情況下,有報告稱定製晶片掩蓋了錯誤並且沒有暴露錯誤地址。在這裡,隨著時間的推移,錯誤增多,可用記憶體大小減小,從而導致更高的快取未命中率。與磁碟/SSD使用不同的是,當空間用完時會丟擲空間不足錯誤,記憶體使用情況不同;只要滿足最小記憶體空間要求,應用程式仍然可以執行,儘管由於減小的快取大小導致更頻繁的頁面交換,效能會降低。

外部原因:有兩種情況下,由於環境條件(特別是記憶體高水位,引入更多嚴重事件,導致頻繁的多位混亂)和人為錯誤,記憶體速度減慢(操作員匆忙插入新的NVDIMM卡,由於連線鬆動,該卡仍能正常工作,但效能較慢)。

未知原因:存在其他未知原因導致的記憶體亞健康故障事件。在HBase部署中,記憶體的執行速度僅為正常速度的25%。在另一個不確定的情況下,在某個基準下觀察到了低記憶體頻寬,但在不同的基準下沒有觀察到。

SRAM錯誤:人們非常關注DRAM錯誤[37],可以說DRAM可靠性在很大程度上是一個已解決的問題——大多數錯誤可以透過ECC(犧牲可預測的延遲)來掩蓋,或者導致受影響程式的故障停止行為。除了DRAM,SRAM的使用在裝置控制器(如FPGA、網絡卡和儲存介面卡)中非常普遍。與DRAM不同,SRAM的工作原理是將每個儲存單元的電壓保持在所需的水平;它不包含可能導致讀/寫暫停的重新整理週期。它最常用於不能在RAM和使用資料的組合邏輯之間產生暫停或緩衝資料的電路。

資料路徑上的SRAM錯誤通常被透明遮蔽;它們最終導致CRC驗證錯誤,只需重試網路資料包或磁碟I/O。然而,SRAM也包含在控制路徑中。我們觀察到SRAM錯誤導致裝置偶爾從中斷的控制路徑重新啟動(以及許多其他問題),從而導致瞬態停止症狀(如§3.3所述)。遺憾的是,SRAM的每位元錯誤率沒有改善[8]。因此,在實踐中,SRAM錯誤在大型基礎設施中經常發生,是服務中斷的主要原因。

4.4 網路

網路效能可變性是一個眾所周知的問題,通常由負載波動引起。本文強調,網路亞健康故障可能是導致網路效能下降的主要原因。

韌體錯誤:我們收集了三份關於交換機韌體中“壞”路由演算法的報告。在一種情況下,由於庫存驅動程式/韌體上的動態路由演算法沒有“按照供應商的承諾”工作,網路效能下降到最大效能的一半。由於對韌體中發生的事情缺乏可見性,操作員必須進入核心以在交換機之間執行ping,這需要很長時間。在另一個故事中,MAC學習沒有響應,特殊型別的流量(如多播)沒有很好地工作,造成了流量氾濫。第三個故事與第一個相似。

NIC驅動程式錯誤:報告了四個NIC驅動程式錯誤例項,丟棄了許多資料包並破壞了TCP效能。在一個故事中,5%的包丟失導致許多虛擬機器進入“死亡藍色畫面”。另一個NIC驅動程式錯誤導致“非常差”的吞吐量,操作員必須禁用TCP offload來解決該問題。在另一個案例中,開發人員在Linux中發現了一個不確定的網路驅動程式錯誤,該錯誤只出現在一臺機器上,使得1Gbps網絡卡只能以1kbps的速度傳輸。最後,一個bug導致NIC和TOR交換機之間發生意外的自動協商,從而限制了它們之間的頻寬,使可用頻寬利用不足。

裝置錯誤:在一個有趣的故事中,網絡卡的物理實現與設計規範不符——晶片的一個遙遠角落缺電,無法全速執行;供應商生產網絡卡,這是一種非常昂貴的衍生產品。同樣,壞的VSCEL鐳射器會降低開關間的效能;這種糟糕的設計影響了數百條電纜。在一次部署中,路由器的內部緩衝記憶體在資料包中偶爾引入位錯誤,導致端到端校驗和失敗,隨後TCP重試。

外部原因:一些亞健康的網路元件也是由環境條件(例如,鬆散的網路電纜、擠壓的光纖)、配置問題(例如,交換機環境不支援巨型幀,因此MTU大小必須配置為1500位元組)和溫度(例如,空氣過濾器堵塞,主機板設計不好,導致NIC落後於CPU)引起的。

未知原因:有其他報告稱,硬體級別的吞吐量下降或嚴重的丟失率,但沒有已知的根本原因。例如,7 Gbps光纖通道崩潰為2 Kbps,1 Gbps吞吐量降級為150 Mbps,丟失率僅為1%,40%的大資料包丟失(但沒有小資料包丟失),一些觀察到的錯誤/丟失率高達50%。TCP效能對丟失率非常敏感。

4.5 處理器

我們發現處理器是相當可靠的,不會自我造成亞健康故障。大多數的CPU亞健康狀態是由外部因素引起的,我們將在下面簡要討論,但將在下一節(§5)中詳細介紹。

分類: 財經
時間: 2022-02-13

相關文章

沒打光沒修圖,這才是楊冪的真實樣,臉上膠原蛋白流失手臂肉鬆

沒打光沒修圖,這才是楊冪的真實樣,臉上膠原蛋白流失手臂肉鬆
楊冪的演技挺不錯的,而且她整個人也是比較有實力的吧,雖然說年紀也不是特別的大,但是在演藝圈方面也是有著自己的一番事業.這一次看到沒有打光,沒有修圖,感覺真的是看到了楊冪的真實的樣子,雖然說年紀並不是特 ...

5000億“醬油茅”宣佈漲價!股價一個月大漲超30%…多家A股公司上調產品價格,有公司年內已提價10次
點藍字關注,不迷路~ "醬油茅"終於調價了! 12日晚間,市值近5000億元的"醬油茅"海天味業釋出公告顯示,對醬油.蠔油.醬料等部分產品的出廠價格進行調整,主 ...

太離譜了!2021年了怎麼還有人被無良裝修公司坑?

太離譜了!2021年了怎麼還有人被無良裝修公司坑?
21世紀科技突飛猛進 不少實體經濟都被網際網路經濟取代 消費者選擇在網際網路上消費不僅僅是因為方便 還因為大多網際網路購物平臺都有一套非常全面的使用者權益保障系統 ??? 說的直白一點就是:只要消費者 ...

為什麼4S店都推薦你貸款買車?別被宰了還替4S店數錢

為什麼4S店都推薦你貸款買車?別被宰了還替4S店數錢
很多車主會發現,貸款買車,4S店在車價上給的優惠更多,還會送一些贈品,而4S店表示,沒辦法,我們也是為了完成任務,於是有些天真的車主便信了,欣然接受了貸款買車,還覺得這家4S店十分良心,真能為客戶著想 ...

嬰兒拉完臭臭後,用水洗還是用溼巾擦?踩過坑的媽媽才知道的做法

嬰兒拉完臭臭後,用水洗還是用溼巾擦?踩過坑的媽媽才知道的做法
記得生完大寶後,婆婆便過來幫忙一起帶孩子.年輕人和老年人的帶娃分歧,在我和婆婆身上上演了,我們常常在帶娃這件事上會發生爭執:比如老年人比較節約,寶寶每次拉完臭臭,婆婆總是端來一盆清水然後直接洗掉,毛巾 ...

選裝修公司還是有規模才有保障,就好比靚家居
搞裝修真的麻煩,第一步選裝修公司就讓我頭都大了,比來比去也比不出個所以然來.還好我爸提醒了我,找游擊隊或者小公司沒什麼保障,裝修到一半就跑路的多了去了,不如挑個規模大點的公司.網上一搜,大公司好像就靚 ...

裝修房子請裝修公司還是私人裝修?裝修公司的利潤原來這麼高

裝修房子請裝修公司還是私人裝修?裝修公司的利潤原來這麼高
買房裝修是許多人會面臨的問題,在裝修的選擇上是選擇裝修公司還是私人裝修,許多人陷入了兩難境地. 裝飾公司幫業主裝修房子賺取利潤,有的說他們先提成30%,有的說他們賺取的是40%的毛利潤.不管是哪種說法 ...

自動駕駛公司 DeepRoute.ai 從阿里巴巴和其他公司籌集了 3 億美元

自動駕駛公司 DeepRoute.ai 從阿里巴巴和其他公司籌集了 3 億美元
路透社 在中國浙江省杭州市的公司總部可以看到阿里巴巴集團的標誌 中國自動駕駛初創公司 DeepRoute.ai 週二表示,它從電子商務公司阿里巴巴等投資者那裡籌集了 3 億美元,以擴大其測試車隊並開發 ...

被三國演義誤導了,這才是歷史上真實的“五虎上將”
首先解釋下正史中蜀國並沒有"五虎上將"的說法,劉備漢中稱王時分封了關羽.張飛.馬超.黃忠四人,沒有趙雲.關羽為前將軍,假節鉞,都荊州事:張飛為右將軍,假節,章武元年遷車騎將軍,領司 ...

京東方A董秘回覆:公司AMOLED事業目前尚未盈利 公司柔性產品出貨量持續增
京東方A(000725)10月09日在投資者關係平臺上答覆了投資者關心的問題. 投資者:公司20年,oled產線整體虧損多少錢? 京東方A董秘:您好!公司AMOLED事業目前尚未盈利,公司柔性產品出貨 ...

詹姆斯旗下傳媒公司即將獲得重大投資,公司估值6.5至7億
虎撲09月18日訊 據權威娛樂媒體<綜藝>報道,勒布朗-詹姆斯的影視傳媒公司SpringHill正在進行深入談判,以敲定從芬威體育集團.紅鳥資本和耐克等財團獲得的重大戰略投資. 儘管詹姆斯 ...

她才是歷史上真實的端妃,活到96歲,依靠“甄嬛”改變了命運

她才是歷史上真實的端妃,活到96歲,依靠“甄嬛”改變了命運
<甄嬛傳>能火爆大江南北最主要是裡面的人物塑造得相當精彩.劇中有囂張跋扈的華妃,端莊大方的眉莊,更有進退自如笑到最後的贏家甄嬛.不過劇中的端妃雖然出場次數不多,她留給人的印象可是記憶猶新, ...

葉倩文雖然白髮明顯,但穿白裙卻從容又優雅,這才是60歲真實模樣

葉倩文雖然白髮明顯,但穿白裙卻從容又優雅,這才是60歲真實模樣
年輕的女性,可以肆無忌憚地揮霍自己的青春,在當下去選擇任何時尚單品,來打造自己的風格.而對於衰老的女性來說,有很多著裝款式,以及色彩都不能輕易嘗試,由於年齡問題,也讓自己不得不承認,衰老確實會影響到整 ...

只做精一件事!全世界令人讚歎的五大小巨人公司

只做精一件事!全世界令人讚歎的五大小巨人公司
一.法國Cathelain 全球龐大繁雜的核電產業鏈上,不乏擁有法國電力.西屋電氣.三菱.阿海琺.中廣核等自帶光環.規模體量巨大企業,儘管他們受到世界工作,但那些至關重要的"配角" ...

深科技才是國與國之間未來競爭的致勝點

深科技才是國與國之間未來競爭的致勝點
贍養人類 獨特的概念 科技是高掛枝頭的鮮亮果實,滋養人類,無人不知.而深科技則是深藏地下的盤虯樹根,本盛末榮,知者甚少. 深科技(Deep Science,深層科學技術)具有雙重涵義,既是商業的,也是 ...

江山代有才人出——任正非與華為科研人員談科技創新

江山代有才人出——任正非與華為科研人員談科技創新
我不是科學家,也不是電子類的專家,即使過去對工程技術有一點了解,和今天的水平差距也巨大.今天跟大家對話,我倒不會忐忑不安,說錯了你們可以當場批評.畢竟你們是走在科技前沿的人,我錯了也沒有什麼不光榮,畢 ...

硬科技投向標|小米產業基金投資車規級MCU企業雲途半導體 寧德時代擬投135億元擴產
<科創板日報>18訊,本週,硬科技領域投融資重要訊息包括:元戎啟行獲3億美元融資,阿里戰略領投:靈明光子完成數千萬元B1輪融資:傳寧德時代擬3.77億加元收購加拿大鋰業公司等. >& ...

特斯拉:是時候從直營轉戰4S店了 | 中國汽車報

特斯拉:是時候從直營轉戰4S店了 | 中國汽車報
特斯拉恐怕是當下最熱門的汽車品牌了,就連完全不懂車的"小白",也會對特斯拉抱有幾分好奇.在消費者心中,特斯拉無疑是高階.前衛.創新的代名詞,不僅由於其搭載了先進的智慧駕駛技術,還因 ...

電商代運營到底是不是坑?

電商代運營到底是不是坑?
對於淘寶店主來講,一聽到電商代運營公司,腦海裡冒出來的觀念就是,騙子,混蛋,不靠譜... 電商代運營公司按理來說是幫助賣家實現電商夢,幫助賣家越做越好的,為什麼現在的行業會被認為是騙子呢? 電商代運營 ...

虧損到盈利3000億,孫正義押中千億公司,令軟銀贏了場“翻身仗”

虧損到盈利3000億,孫正義押中千億公司,令軟銀贏了場“翻身仗”
談到孫正義的名字,相信很多國人都不陌生.當年,馬雲為阿里巴巴四處"求投資"卻無人理會,唯有孫正義在與馬雲交談10分鐘後,當即作出決定,向剛剛建立不足一年的阿里巴巴投資2000萬美元 ...