-
VCSA 7.0 U3G 加域報錯 Error: ERROR_GEN_FAILURE [code 0x0000001f]
我司用戶在VCSA部署后,為更方便的管理,希望將VCSA加入公司現有域控,但在加入過程中web界面報錯,命令行也出現報錯提示Error: ERROR_GEN_FAILURE [code 0x0000001f]。 蘇州天劍服務工程師在接收到用戶反饋后,第一時間遠程接入協助處置,經初步檢查,DNS、FQDN等配置均正確,起初懷疑smb版本的問題,經過kb的操作步驟執行后,仍無法順利接入域環境。經與我司微軟技術工程師內部溝通研討后,提出終端時間與DC時間差異過大,也會導致入域失敗。 確認好思路后,開始…
-
DELL R750 PERC H755 Front 陣列卡固件BUG導致本地存儲故障處置
一、故障描述 用戶VMware ESXi 7.0u3c在使用過程中,本地存儲中的虛擬機突然無法訪問,用戶在檢查本地存儲卷顯示為不可訪問狀態。 通過iDrac檢查陣列卡狀態,無法正確識別物理盤及RAID卷組。 二、故障定位 以蘇州天劍技術服務工程師的經驗判斷,可能是RAID卡的固件缺陷導致的問題,所以第一時間遠程接入后即檢查了RAID卡固件版本為52.21.0-4606,與DELL原廠核實后,當前RAID卡固件版本確實存在需要緊急升級的版本。 詳細的描述可見:https://www.dell.co…
-
Nutanix Node is removed from metadata store 節點離線故障處置
在數字化時代,企業的IT基礎設施扮演著至關重要的角色,而Nutanix超融合系統更是被眾多企業認可為提升效能的利器。然而,即便是最先進的技術也難免會遭遇各種技術故障,而這則故事正是發生在這個充滿挑戰的背景下。 今天我們400服務電話接到了一通陌生的報障電話,這位用戶他們的Nutanix超融合1個節點離線,給業務的正常運行造成了一定的影響。秉承著業務至上的原則,我們的技術服務團隊在未進行任何商務溝通的情況下迅速遠程接入生產環境進行檢查。 通過對集群的基本檢查發現,其中一個節點為“Node is r…
-
DELL R730xd 面板指示燈全亮黃色告警無法開機故障處置
蘇州天劍服務工程師幫客戶在IDC上架服務器發現其中一臺DELL R730xd服務器面板指示燈全亮黃色,點開機鍵無反應。 蘇州天劍服務工程師嘗試對服務器進行放電后故障依舊。 1、檢查一下連線是否都正常,電源是否OK,重新插拔一下。 2、內存重新插拔一下 3、主板放電操作一下:移除電源適配器和電池,按住電源按鈕10秒鐘后釋放電源開關,再次連接電源適配器。 多次嘗試無果后,使用最小化環境(一顆CPU,一條內存)啟動服務器仍無法啟動。在蘇州天劍服務工程師二線團隊的建議下,嘗試重新拔插了指示燈面板的控制排…
-
Nutanix CVM inode 寫滿造成集群崩潰的故障處置
蘇州天劍服務工程師在國慶值班中收到用戶緊急報障,生產環境中使用的3節點Nutanix集群,分布式存儲服務崩潰,在ESXI中所有虛擬機顯示為失效狀態,存儲里面查看Nutanix存儲空間也顯示為0B,所有虛擬機業務中斷,蘇州天劍服務工程在收到該用戶反饋后,第一時間遠程接入用戶環境進行處置。 1、環境檢查 該套Nutanix超融合AOS版本為6.5 LTS與VMware融合部署,在ESXI檢查各個節點上的CVM虛擬機運行正常,但是PRISM后臺9440端口無法訪問,通過web console進入cvm…
-
VMware Horizon View 7鏈接克隆池遷移新存儲
大多數使用VMware Horizon View鏈接克隆部署的客戶,在將現有桌面遷移到新存儲上時都會遇到難題。由于部署鏈接克隆VM的方式(鏈接克隆虛擬機是與父虛擬機共享虛擬磁盤的虛擬機的副本),無法通過vMotion存儲的操作進行存儲遷移。 VMware Horizon View Composer有一個名為“重新平衡”的選項,該選項可用于將桌面遷移到新的存儲或在多個數據存儲之間進行平衡。 以下簡單步驟說明了桌面遷移。在我們的示例中,我們從一個FlashArray存儲移動到另一個FlashArra…
-
VCSA 7.0u3c日志analytics-runtime.log.stderr體積過大處置方法
在對某客戶VCSA進行巡檢時發現日志存儲分區磁盤空間已經占滿,在進一步的檢查中發現analytics-runtime.log.stderr日志體積已經超過6GB,為留足充分觀察與判斷故障的時間,臨時為日志分區進行了5GB的磁盤空間擴容,經過3天的觀察,日志體積超過7GB,平均一天超過300MB的增長速度。 經過我們工程師的專業處置,先已成功降低該日志文件體積,實現日志輪轉,方法如下: 新建文件vmware-analytics.lr: 保存以下內容至文件: 按esc退出編輯模式,然后輸入:wq保存…
-
vCenter 7.0u3c 使用關閉 vSAN 群集向導功能導致集群故障一則
故障描述 在客戶現場我們使用7.0u3c的新功能,vSAN 集群關閉向導,對vSAN群集進行停機維護。該集群由四個 Dell R940xa 節點組成,vCenter 位于非 vSAN 節點上。關機是通過各項預檢查,在拔掉電源之前vSAN主機已正確關閉。在重新啟動vSAN集群后,所有 vSAN 虛擬機都被列為不可訪問,并且如果在數據存儲中瀏覽(通過 GUI 或命令行)是不可見的,但是vSAN的容量是正常的。 重啟集群的按鈕不存在,所以我們工程師按照kb通過命令行手動重啟集群。然而,恢復腳本超時: …
-
無法初始化 vGPU“nvidia_a16-1b”的插件“libnvidia-vgx.so”
我們一位用戶在對自家VDI桌面的GPU卡進行升級后,發現無法啟動帶有vGPU的虛擬機,報錯如下: 于是用戶與我們的工程師聯系排查問題,我們的虛擬化工程師第一反應會不會是GPU卡驅動沒有安裝好,經過排查確認驅動正常,可以使用nvidia-smi命令: 接著我們的虛擬化工程師懷疑是不是GPU卡的ECC沒關閉導致的異常,經查用戶使用的是nVidia A16 GPU卡,在對A16的參數進行查詢確認后,發現是支持vGPU模式下開啟ECC功能。 具體關于ECC的描述可以參考官方文檔: https://doc…
-
ESXi7.0利用iDRACTools不重啟服務器重置iDRAC密碼
對于很多托管在機房或者依賴遠程運維的工程師來說,iDRAC是必不可少的管理工具,我們的工程師今天幫助客戶運維的時候遇到一個很尷尬的問題,用戶密碼本中記錄的一臺服務器iDRAC密碼登錄不上,現場也沒有值班的工程師可以現場協助重置密碼,問題又很急著解決,經過我們工程師的努力成果在遠程的環境下重置掉了iDRAC密碼成功進入iDRAC進行運維工作。 用戶服務器是一臺DELL PowerEdge R740服務器,操作系統為VMware vSphere ESXi 7.0U3C,在以往的運維經驗中,我們曾經在…