一、故障描述
用戶VMware ESXi 7.0u3c在使用過程中,本地存儲中的虛擬機突然無法訪問,用戶在檢查本地存儲卷顯示為不可訪問狀態。
通過iDrac檢查陣列卡狀態,無法正確識別物理盤及RAID卷組。
二、故障定位
以蘇州天劍技術服務工程師的經驗判斷,可能是RAID卡的固件缺陷導致的問題,所以第一時間遠程接入后即檢查了RAID卡固件版本為52.21.0-4606,與DELL原廠核實后,當前RAID卡固件版本確實存在需要緊急升級的版本。
詳細的描述可見:https://www.dell.com/support/kbdoc/en-us/000223831/perc11-perc-h750-h755-and-h755n-controllers-may-experience-single-or-multi-bit-ecc-messages,即當前RAID控制器固件版本,存在緩存錯誤導致掛起的情況,也符合當前的故障現象。
三、故障處置
與用戶溝通停機時間后,將服務器進行冷重啟,啟動后Dirver Health Manager彈出提示:
這是由于RAID卡產生了Multi-bit ECC Error,在啟動過程中讀到了LSI_RAID_Controller_info中的錯誤信息,這里僅需按X即可繼續啟動。
問題原因說明:
RAID卡具備ECC(Error Correcting Code)這種內存校驗機制,采用奇偶性校驗的方法,出現的ECC錯誤分為Single-bit ECC Error和Multi-bit ECC Error兩種。
Single-bit ECC Error:只有單個bit出現了錯誤,能通過奇偶性校驗恢復,因此RAID卡能容許出現一定次數的Single-bit ECC Error。iBMC會從RAID卡獲取出現錯誤的次數和產生告警的門限,當次數≥門限時,iBMC會產生告警并記錄維護日志。
Multi-bit ECC Error:有多個bit出現了錯誤,不能通過奇偶性校驗恢復,因此RAID卡通常會出現掛死,進而導致系統掛死甚至系統重啟。RAID卡掛死后,iBMC無法通過RAID卡檢測到產生了Multi-bit ECC Error,因此iBMC無法產生告警。系統重啟后,Multi-bit ECC Error可能恢復,此時iBMC可以從RAID卡獲取到一次Multi-bit ECC Error事件,并記錄在LSI_RAID_Controller_info里,這個是在multi-bit ECC Error發生且系統重啟之后延遲記錄的。
iDrac順利識別到RAID卡后,按正常升級步驟升級合適的固件版本即可,同時檢查VMware兼容性要求,蘇州天劍服務工程師趁停機的機會一并升級了ESXi驅動,以滿足兼容性要求。
四、總結
兼容性檢查是保障穩定可靠的生產環境的最低基線,一定要及時定期檢查如BIOS、RAID卡、HBA卡、網卡等關鍵硬件的兼容性是否滿足兼容性列表要求!