97久久久久久久久人妻精品专区,内射爽无广熟女亚洲,九九久久精品免费观看z0zo,在线国产亚洲一区www免费视频

一、故障描述

用戶VMware ESXi 7.0u3c在使用過程中,本地存儲中的虛擬機突然無法訪問,用戶在檢查本地存儲卷顯示為不可訪問狀態。

DELL R750 PERC H755 Front 陣列卡固件BUG導致本地存儲故障處置

通過iDrac檢查陣列卡狀態,無法正確識別物理盤及RAID卷組。

DELL R750 PERC H755 Front 陣列卡固件BUG導致本地存儲故障處置

二、故障定位

蘇州天劍技術服務工程師的經驗判斷,可能是RAID卡的固件缺陷導致的問題,所以第一時間遠程接入后即檢查了RAID卡固件版本為52.21.0-4606,與DELL原廠核實后,當前RAID卡固件版本確實存在需要緊急升級的版本。

DELL R750 PERC H755 Front 陣列卡固件BUG導致本地存儲故障處置

詳細的描述可見:https://www.dell.com/support/kbdoc/en-us/000223831/perc11-perc-h750-h755-and-h755n-controllers-may-experience-single-or-multi-bit-ecc-messages,即當前RAID控制器固件版本,存在緩存錯誤導致掛起的情況,也符合當前的故障現象。

三、故障處置

與用戶溝通停機時間后,將服務器進行冷重啟,啟動后Dirver Health Manager彈出提示:

DELL R750 PERC H755 Front 陣列卡固件BUG導致本地存儲故障處置

這是由于RAID卡產生了Multi-bit ECC Error,在啟動過程中讀到了LSI_RAID_Controller_info中的錯誤信息,這里僅需按X即可繼續啟動。

問題原因說明:

RAID卡具備ECC(Error Correcting Code)這種內存校驗機制,采用奇偶性校驗的方法,出現的ECC錯誤分為Single-bit ECC Error和Multi-bit ECC Error兩種。

Single-bit ECC Error只有單個bit出現了錯誤,能通過奇偶性校驗恢復,因此RAID卡能容許出現一定次數的Single-bit ECC Error。iBMC會從RAID卡獲取出現錯誤的次數和產生告警的門限,當次數≥門限時,iBMC會產生告警并記錄維護日志。

Multi-bit ECC Error有多個bit出現了錯誤,不能通過奇偶性校驗恢復,因此RAID卡通常會出現掛死,進而導致系統掛死甚至系統重啟。RAID卡掛死后,iBMC無法通過RAID卡檢測到產生了Multi-bit ECC Error,因此iBMC無法產生告警。系統重啟后,Multi-bit ECC Error可能恢復,此時iBMC可以從RAID卡獲取到一次Multi-bit ECC Error事件,并記錄在LSI_RAID_Controller_info里,這個是在multi-bit ECC Error發生且系統重啟之后延遲記錄的。

iDrac順利識別到RAID卡后,按正常升級步驟升級合適的固件版本即可,同時檢查VMware兼容性要求,蘇州天劍服務工程師趁停機的機會一并升級了ESXi驅動,以滿足兼容性要求。

DELL R750 PERC H755 Front 陣列卡固件BUG導致本地存儲故障處置
DELL R750 PERC H755 Front 陣列卡固件BUG導致本地存儲故障處置

四、總結

兼容性檢查是保障穩定可靠的生產環境的最低基線,一定要及時定期檢查如BIOS、RAID卡、HBA卡、網卡等關鍵硬件的兼容性是否滿足兼容性列表要求!

相關新聞

發表回復

您的電子郵箱地址不會被公開。 必填項已用 * 標注

聯系我們

聯系我們

400-0512-768

郵件:support@sworditsys.com

工作時間:周一至周五 8:00 - 21:00

分享本頁
返回頂部