问题描述

故障现象

通过命令查看到系统有大量 LINK ERRORSOFTWARE PROGRAM ERROR 错误输出

主要体现

通过 errpt 命令可以看到告警信息

# errpt
DC73C03A   0228094919 T S fscsi0         SOFTWARE PROGRAM ERROR
4B436A3D   0228094919 T H fscsi0         LINK ERROR
4B436A3D   0228094819 T H fscsi0         LINK ERROR
DC73C03A   0228094719 T S fscsi0         SOFTWARE PROGRAM ERROR
4B436A3D   0228094719 T H fscsi0         LINK ERROR
4B436A3D   0228094619 T H fscsi0         LINK ERROR
DC73C03A   0228094419 T S fscsi0         SOFTWARE PROGRAM ERROR
4B436A3D   0228094419 T H fscsi0         LINK ERROR
4B436A3D   0228094319 T H fscsi0         LINK ERROR
DC73C03A   0228094219 T S fscsi0         SOFTWARE PROGRAM ERROR

详细信息

日志相信信息:

# errpt -aj 4B436A3D
---------------------------------------------------------------------------
LABEL:          FCP_ERR4
IDENTIFIER:     4B436A3D

Date/Time:       Thu Feb 28 09:49:56 CST 2019
Sequence Number: 35981
Machine Id:      00F7E8BF4C00
Node Id:         njsserp
Class:           H
Type:            TEMP
WPAR:            Global
Resource Name:   fscsi0
Resource Class:  driver
Resource Type:   efscsi
Location:        U78AA.001.WZSHWUT-P1-C3-T1

Description
LINK ERROR
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
SENSE DATA
0000 0010 0000 0029 0000 0000 0200 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 00AB 0200 0000 0000 00FF FFFC 0000 0000 0000 0000
5005 0768 0286 3021 5005 0768 0256 3021 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0009 0000 0001 0000 0100 0000 0000 0000 0000 0000 0000 0300 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0042 0000 0000 0002 0000 0000 0000 8074 A000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
1000 0000 C996 6A0C 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
---------------------------------------------------------------------------
LABEL:          FCP_ERR4
IDENTIFIER:     4B436A3D

Date/Time:       Thu Feb 28 09:48:55 CST 2019
Sequence Number: 35980
Machine Id:      00F7E8BF4C00
Node Id:         njsserp
Class:           H
Type:            TEMP
WPAR:            Global
Resource Name:   fscsi0
Resource Class:  driver
Resource Type:   efscsi
Location:        U78AA.001.WZSHWUT-P1-C3-T1

Description
LINK ERROR
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
SENSE DATA
0000 0010 0000 0029 0000 0000 0200 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 00AB 0200 0000 0000 00FF FFFC 0000 0000 0000 0000
5005 0768 0286 3021 5005 0768 0256 3021 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0009 0000 0001 0000 0100 0000 0000 0000 0000 0000 0000 0300 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0042 0000 0000 0001 0000 0000 0000 8074 A000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
1000 0000 C996 6A0C 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

# errpt -aj DC73C03A
---------------------------------------------------------------------------
LABEL:          FCP_ERR6
IDENTIFIER:     DC73C03A

Date/Time:       Thu Feb 28 09:49:57 CST 2019
Sequence Number: 35982
Machine Id:      00F7E8BF4C00
Node Id:         njsserp
Class:           S
Type:            TEMP
WPAR:            Global
Resource Name:   fscsi0

Description
SOFTWARE PROGRAM ERROR
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
SENSE DATA
0000 0010 0000 00B5 0000 0005 0203 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 00AB 0200 0000 0000 00FF FFFC 0000 0000 0000 0000
5005 0768 0286 3021 5005 0768 0256 3021 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0009 0000 0001 0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0040 0000 0000 0002 0000 0000 0000 8074 A000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0602 9305 0100
0010 0000 0000 0000 0000 0000 05A6 B6C8 0000 0001 0000 0000 0000 0000 0000 0000
0000 0001 636D 4643 F100 0A02 8083 80E8 F100 0A02 8083 815C F100 0A02 8083 0048
0000 0000 0008 B0E8 0000 0000 0008 B15C 0000 0000 0008 A048 0100 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0300 0000 0908 0028 8000 0800 00FF FFFF 0000 07D0 1000 0000 C996 6A0C 2000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
1000 0000 C996 6A0C 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
---------------------------------------------------------------------------
LABEL:          FCP_ERR6
IDENTIFIER:     DC73C03A

Date/Time:       Thu Feb 28 09:47:44 CST 2019
Sequence Number: 35979
Machine Id:      00F7E8BF4C00
Node Id:         njsserp
Class:           S
Type:            TEMP
WPAR:            Global
Resource Name:   fscsi0

Description
SOFTWARE PROGRAM ERROR
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
SENSE DATA
0000 0010 0000 00B5 0000 0005 0203 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 00AB 0200 0000 0000 00FF FFFC 0000 0000 0000 0000
5005 0768 0286 3021 5005 0768 0256 3021 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0009 0000 0001 0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0040 0000 0000 0002 0000 0000 0000 8074 A000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0602 9305 0100
0010 0000 0000 0000 0000 0000 05A6 B6C8 0000 0001 0000 0000 0000 0000 0000 0000
0000 0001 636D 4643 F100 0A02 8083 80E8 F100 0A02 8083 815C F100 0A02 8083 0048
0000 0000 0008 B0E8 0000 0000 0008 B15C 0000 0000 0008 A048 0100 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0300 0000 0908 0028 8000 0800 00FF FFFF 0000 07D0 1000 0000 C996 6A0C 2000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
1000 0000 C996 6A0C 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
---------------------------------------------------------------------------

磁盘路径状态

通过 lspath 命令查看 fcs0 链路状态,发现该链路下部分磁盘 Failed,部分磁盘 Enable,初步判断为链路问题

# lspath
Enabled hdisk0  sas0
Enabled hdisk1  sas0
Failed  hdisk2  fscsi0
Enabled hdisk3  fscsi0
Failed  hdisk4  fscsi0
Enabled hdisk2  fscsi1
Enabled hdisk3  fscsi1
Enabled hdisk4  fscsi1
Enabled hdisk2  fscsi2
Enabled hdisk3  fscsi2
Enabled hdisk4  fscsi2
Enabled hdisk2  fscsi3
Enabled hdisk3  fscsi3
Enabled hdisk4  fscsi3
Enabled hdisk5  fscsi0
Enabled hdisk5  fscsi1
Enabled hdisk5  fscsi2
Enabled hdisk5  fscsi3
Failed  hdisk6  fscsi0
Failed  hdisk7  fscsi0
Failed  hdisk8  fscsi0
Enabled hdisk6  fscsi1
Enabled hdisk7  fscsi1
Enabled hdisk8  fscsi1
Enabled hdisk6  fscsi2
Enabled hdisk7  fscsi2
Enabled hdisk8  fscsi2
Enabled hdisk6  fscsi3
Enabled hdisk7  fscsi3
Enabled hdisk8  fscsi3
Enabled hdisk9  fscsi0
Enabled hdisk10 fscsi0
Enabled hdisk11 fscsi0
Enabled hdisk9  fscsi1
Enabled hdisk10 fscsi1
Enabled hdisk11 fscsi1
Enabled hdisk9  fscsi2
Enabled hdisk10 fscsi2
Enabled hdisk11 fscsi2
Enabled hdisk9  fscsi3
Enabled hdisk10 fscsi3
Enabled hdisk11 fscsi3

诊断信息

运行 diag 命令发现 fcs0 和 fcs1 存在错误信息

设备状态

磁盘状态

磁盘状态正常

# fget_config -Av
# lsdev -Cc disk
hdisk0  Available 01-00-00 SAS Disk Drive
hdisk1  Available 01-00-00 SAS Disk Drive
hdisk2  Available 05-00-02 MPIO FC 2145
hdisk3  Available 05-00-02 MPIO FC 2145
hdisk4  Available 05-00-02 MPIO FC 2145
hdisk5  Available 05-00-02 MPIO FC 2145
hdisk6  Available 05-00-02 MPIO FC 2145
hdisk7  Available 05-00-02 MPIO FC 2145
hdisk8  Available 05-00-02 MPIO FC 2145
hdisk9  Available 05-00-02 MPIO FC 2145
hdisk10 Available 05-00-02 MPIO FC 2145
hdisk11 Available 05-00-02 MPIO FC 2145

接口状态

接口状态正常

cor0    Available 0A-00 GXT145 Graphics Adapter
ent0    Available 03-00 2-Port 10/100/1000 Base-TX PCI-Express Adapter (14104003)
ent1    Available 03-01 2-Port 10/100/1000 Base-TX PCI-Express Adapter (14104003)
ent2    Available 07-00 4-Port Gigabit Ethernet PCI-Express Adapter (e414571614102004)
ent3    Available 07-01 4-Port Gigabit Ethernet PCI-Express Adapter (e414571614102004)
ent4    Available 07-02 4-Port Gigabit Ethernet PCI-Express Adapter (e414571614102004)
ent5    Available 07-03 4-Port Gigabit Ethernet PCI-Express Adapter (e414571614102004)
ent6    Available 08-00 2-Port 10/100/1000 Base-TX PCI-Express Adapter (14104003)
ent7    Available 08-01 2-Port 10/100/1000 Base-TX PCI-Express Adapter (14104003)
fcs0    Available 05-00 8Gb PCI Express Dual Port FC Adapter (df1000f114108a03)
fcs1    Available 05-01 8Gb PCI Express Dual Port FC Adapter (df1000f114108a03)
fcs2    Available 06-00 8Gb PCI Express Dual Port FC Adapter (df1000f114108a03)
fcs3    Available 06-01 8Gb PCI Express Dual Port FC Adapter (df1000f114108a03)
sissas0 Available 01-00 PCIe x4 Planar 3Gb SAS Adapter
usbhc0  Available 09-08 USB Host Controller (33103500)
usbhc1  Available 09-09 USB Host Controller (33103500)
usbhc2  Available 09-0a USB Enhanced Host Controller (3310e000)
vsa0    Available       LPAR Virtual Serial Adapter
vsa1    Available       LPAR Virtual Serial Adapter

存储接口状态

存储对应接口状态显示脱机

指示灯状态

服务器、存储各项指示灯均正常闪烁,无错误提示

处理过程

  1. 排除光纤的跳线的原因,分别查看两端都可以看到红光
  2. 更换两端光模块,模块后未进行cfgmgr -v操作,没有恢复
  3. 将 fscsi0 和 fscsi2 对应存储的端口进行对调,排除存储接口问题。更换后进行 cfgmgr -v 操作,等待 2 个小时,操作没有完成,于是取消操作并进行还原,并重新进行 cfgmgr -v 操作。 此时 fscsi2 部分 链路 显示 Failed
  4. 对服务器进行接口删除操作,操作后等待 8 小时,命令未提示完成,接口被删除。
  5. 当天晚上进行重启,并准备好服务器的 HBA 卡,重启后均恢复正常
文章目录