
1. 通过 vSAN Web UI 检查物理磁盘状态:
登录 vCenter Server Web Client,并从以下路径检查磁盘状态:
主页 > 主机和集群 > vSAN 集群 > 配置 > vSAN 存储管理。
在此,您可以查看名为“vSAN 磁盘管理视图”的图示。选择相关主机,展开“查看磁盘”部分。
在这里,您可以验证磁盘是否处于以下异常状态:
(1)运行状况不佳或已卸载。
(2)容量为 0。
(3)永久磁盘故障。
(4)磁盘关闭。
(5)不存在磁盘。
还可以通过 vSAN Skyline 运行状况部分检查与磁盘相关的警报。在“”>“vSAN”>“Skyline 运行状况”>“物理磁盘”中,您可以验证是否有任何警报触发。
从受影响主机的存储设备列表中也可以检查磁盘状态。在“主页 > 主机和集群 > vSAN 集群 > 受影响的 vSAN ESXi 主机 > 配置 > 存储 > 设备”中,您可以查看磁盘状态。
2. 通过 CLI 进一步确认 vSAN 磁盘的状态:
通过 SSH 连接到受影响的主机并执行以下命令以获取更多详细信息:
vdq -qH 查看“IsPDL”(永久设备丢失)参数。如果等于 1,则磁盘丢失。
vdq -iH 检查磁盘组中是否缺少磁盘。
esxcli vsan storage list 检查“In CMMDS”参数。如果为 false,则与磁盘的通信会丢失。
使用 esxcli storage core device smart get -d 检查物理磁盘的读写错误。
esxcli vsan storage list | grep “VSAN Disk Group UUID:” | sort | uniq -c 可以检查可用的磁盘组。
还有检查是否存在正在进行或停滞的重新同步操作、确定故障 SSD 或硬盘的位置、识别发生故障的硬盘或 SSD 以及查找与 vSAN 相关的存储日志等命令和步骤。
3. 常见的磁盘故障原因及故障排除步骤:
(1)磁盘软故障:检查 KVM(iDrac、iLo)磁盘/控制器是否有任何问题,检查日志中是否有任何SCSI错误代码,并检查控制器驱动程序/固件是否处于受支持的组合中。如果在 KVM 中没有发现问题或没有SCSI错误代码,则可能是磁盘的软故障,可以尝试重新启动主机。
(2)硬件问题:当日志现如“有效检测数据:0x4 0x0 0x0”的信息时,表示出现了硬件问题。确定是硬盘故障后,需要由硬件供应商更换坏掉的磁盘。
(3)介质误差:当发生未恢复的读取错误(URE)时,这是一种介质错误。如果 URE 发生在数据区域中,需要寻求 VMware vSAN 支持的帮助。
以下是在日志文件中发现的 scsi 错误示例:/var/run/log/vmkernel.log。
“`
log
2022-10-12T19:36:55.253Z cpu11:2098330)ScsiDeviceIO: 示例命令及错误信息… failed H:0x0 D:0x2 P:0x0 Valid sense data follows…
“`
故障排除步骤:
如果您使用的是混合 vSAN,并且磁盘是 HDD,那么遇到问题的磁盘应由硬件供应商进行更换。
值得关注的是,vSAN 中的磁盘处理(DDH)功能会监控磁盘和磁盘组的运行状况,以便检测即将发生的磁盘故障或性能不佳的磁盘组。当满足以下条件之一时,DDH 会卸载问题磁盘或报告其运行状况不佳:
1. 某个 vSAN 磁盘的写入 IO 延迟过高。
2. 某个 DG 达到最大日志拥塞阈值。
3. 检测到即将发生的 vSAN 磁盘故障(可以使用命令查看磁盘健康状况:esxcli storage core device smart get -d naa.xxx)。
例如,使用以下命令检查 ART 数据:
“`bash
localcli storage core device smart get -d naa.xxxxx
“`
日志文件中还可能有类似以下的警告信息:
/var/run/log/vsandevicemonitord.log:
警告 – VSAN 设备上的写入平均延迟已超过阈值。警告 – VSAN 设备上的最大日志拥塞情况。警告 – 某个磁盘的 ART 健康状态为“即将失败”。故障排除步骤:首先检查故障磁盘是否存在硬件或介质错误。在主机的出现故障的磁盘上运行 esxtop 并选择 “u” 选项来检查 “DG”,查看是否有高延迟报告。参考相关知识库文章来了解如何使用 esxtop 进行检查。确保控制器驱动程序和固件兼容,检查磁盘是否为 vSAN 支持的设备以及其固件版本是否受支持。如果没有兼容性问题,请联系硬件供应商以检查是否存在固件问题。此外针对读写命令失败,中止或重试的错误,也需要注意检查和解决相关问题。确保固件和驱动程序兼容,并检查磁盘是否适合 vSAN 使用。如果遇到问题无法解决,建议联系硬件供应商寻求帮助。
