如何对Dell PowerEdge服务器上的PERC控制器(RAID卡)上的内存或电池错误进行故障诊断

  1. 本文提供如何对Dell PowerEdge服务器上的Dell PERC控制器上可能出现的“Memory/battery problems were detected.The adapter has recovered, but cached data was lost.Press any key to continue”(检测到内存/电池问题。适配器已恢复,但缓存数据丢失。按任意键继续)错误及其它内存相关的错误进行故障诊断。

    1.开机自检期间出现RAID控制器错误信息

    开机自检期间,RAID 控制器出现消息:

    Memory/battery problems were detected.The adapter has recovered but cache data may be lost.(检测到内存/电池问题。适配器已恢复,但缓存数据丢失。)Press any key to continue.


    2.导致错误信息的故障诊断条件

    此消息通常在出现以下情况之一时出现。对关联事件进行故障诊断也能阻止此消息出现。

    • 操作系统指示异常关机。
    • 操作系统指示出现错误(Windows出现蓝屏)。
    • 自行断电情况。

    常见故障诊断步骤包括:

    1.重新引导至操作系统

    如果操作系统引导成功,则再次重新引导应该不会再显示消息。

    2.清除控制器高速缓存

    1. SCSI控制器(PERC 3、PERC 4):按CTRL-M。
    2. SAS/SATA控制器(PERC 5、PERC 6和更新的控制器):按CTRL-R。
    3. 等待5分钟以清除缓存内容。
    4. 重新引导至控制器BIOS。
      提醒:如果错误仍然存在,则硬件错误的可能性很大。请联系技术支持以了解进一步的故障诊断步骤。
    5. 如果错误消除,则引导至操作系统。
    6. 如果操作系统引导仍然不成功和/或错误仍然存在,这可能表明是操作系统问题。如果您拥有任何有效保修,请联系技术支持以了解进一步的故障诊断步骤。

     

    3.检查物理PERC控制器

    1. 检查DIMM和DIMM插槽是否损坏。
      1. 关机并拔下电源线。
      2. 等待 30秒钟,让系统释放弱电。
      3. 卸下PERC控制器。有关卸下和更换此系统中的部件的详细说明,请参阅戴尔支持站点上的“User's Guide”(用户指南)。
      4. 卸下RAID内存电池。请记住,插入DIMM后再重新安装内存电池。
      5. 从控制器中取出内存DIMM(如果适用)。
      6. 检查DIMM插槽的针脚是否弯曲或有其它损坏。检查内存DIMM的边缘连接器是否有任何损坏。
    2. 如果控制器具有嵌入式内存或内存插槽已损坏,将需要更换PERC控制器。
    3. 如果内存已损坏,则需要更换控制器内存。
    4. 如果没有损坏,则更换内存DIMM,然后重新安装控制器。
    5. 将控制器内存与已知良好的内存交换(如果可能)。
      1. 没有已知良好的内存可用:联系支持人员。
      2. 已知良好的内存没有发生错误:更换内存。
      3. 已知良好的内存仍然出现错误:更换PERC控制器。

    3.其他信息

    此错误消息在开机自检时显示,表示控制器高速缓存未包含所有应有的信息,或者包含要写入到硬盘但无法写入或尚未写入的数据。出现此错误最常见的原因有:

    • 服务器没有执行正常的关机过程 - 断电和/或自行重新启动可导致不完整或损坏的数据保留在高速缓存中,无法写入硬盘。
    • 高速缓存内存故障 - 有故障的高速缓存内存会导致数据损坏。这会引起操作系统相关问题和自行重新启动。
    • 关闭服务器时电池断电 - 服务器未开机时,不使用NVCACHE(非易失性高速缓存)内存的控制器利用可以保留高速缓存内容一段时间(24-72个小时)的电池。一旦电池耗尽,整个高速缓存的内容将丢失,控制器会发现高速缓存内存没有包含所有应有的信息。使用NVCache(一些H700/H800控制器和较新的控制器,如H710、H710P、H810)的控制器不太可能出现此问题,因为大多数情况下,电池仅需要保持通电30秒或更短时间。

     

    1.PERC电池维护

    对于怀疑出现故障或在OpenManage Server Administrator (OMSA)中显示了警告符号的PERC电池,应手动执行学习周期。  学习周期导致电池放电和充电,并会将电池还原到完全正常工作状态。在某些情况下,可能需要多个学习周期步骤才能将电池还原至有效充电状态。要执行手动学习周期,请在 OMSA 中的“Battery Tasks”下拉列表中选择 Start Learn Cycle

    如何对Dell PowerEdge服务器上的PERC控制器(RAID卡)上的内存或电池错误进行故障诊断
    图 1:OMSA Battery Tasks 下拉菜单

    2.高速缓存使用

    硬件RAID控制器使用高速缓存(一个临时的信息库)进行正常操作。正常操作高速缓存由 DRAM 内存(与系统内存类似)构成,仅在开机时保留数据。

    较新控制器使用 NVCache,在服务器关闭时使用。NVCache内存同时包含DRAM内存(用于正常操作)和闪存(非易失)。断电时,控制器电池(如果正常)为DRAM内存供电,因此,内容可以复制到闪存中进行无限期存储

    高速缓存的内容基本上可以分为三个部分:
    1. RAID配置和元数据 - 有关RAID阵列的信息,包括配置信息、磁盘成员、磁盘角色等。
    2. 控制器日志 - RAID控制器保留着多个日志文件。戴尔技术人员依赖TTY日志作为对各种RAID和硬盘问题进行故障诊断的主要日志。
    3. RAID数据 - 这是要写入各个硬盘的实际数据。数据以直写和回写高速缓存政策模式写入控制器的高速缓存。