시스템 패닉메시지 Score05/Score95
2010.05.12 03:05
원문 : http://www.ischo.net -- 조인상 // 시스템 엔지니어
Writer : http://www.ischo.net -- ischo // System Engineer in Replubic Of Korea
+++++++++++++++++++++++++++++++++++++++++++++++++++++++
본문 : http://www.ischo.net -- 조인상 //시스템 엔지니어
+++++++++++++++++++++++++++++++++++++++++++++++++++++++
시스템에 패닉이 발생하면서 리부팅 될때는 여러가지 원인이 있을 수 있습니다.
그중 한가지 유형의 분석을 돕기 위해서 아래의 패치들에 추가된 기능이
있습니다.
Solaris 2.5.1 : 103640-34
Solaris 2.6 : 105181-23
Solaris 7 : 106541-13
Solaris 8 : 108528-04
아래의 메세지를 자세히 보시면 (Score 05)라는 부분이 있습니다.
이것은 위의 패치들이 적용되 있을 경우에만 나타나는 메세지로
메세지에 나타나는 CPU가 패닉의 원인을 제공한것인지의 여부에 대한
점수를 100점 만점의 수치로 보여줍니다. 점수는 05 에서 95중
어느 값을 가질 수도 있지만 거의 항상 05나 95점 둘중에 하나가
지정됩니다.(Score 05: 패닉을 유발하지 않음, Score 95: 패닉 유발/교체 대상)
WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
점수는 AFSR(Asynchronous Fault Status Register)에 저장되어 있는
비트값에 의거하여 지정됩니다. CPU와 CPU에서 데이타를
서로 주고 받을 때 하드웨어/소프트웨어의 문제로 인해
데이타의 완결성이 깨질수가 있습니다. 데이타가 깨진 것을 발견하면
그때의 상황에 따라 AFSR 레지스터에 각각의 비트가 세팅됩니다.
(80200000 = 10000000001000000000000000000000)
AFSR의 값을 확인해 보면 어떤 CPU가 데이타를 요청했고 어떤 CPU가
데이타를 보내는 것이 였는지를 확인할 수가 있습니다. 데이타를
요청한 CPU는 불량이 아니겠지요. 그러나 일일이 32비트 값을 항상 확인할
수는 없고 따라서 필드 엔지니어들의 업무를 수월하게 하기 위해서 시스템은
패닉으로 리부팅되면서 자체 분석을 통해서 점수를 보여주는 것입니다.
시스템에 패닉이 발생할 때 패닉 메세지를 자세히 확인해 보시기 바랍니다.
AFSR 0x00000000.######## 의 패턴을 갖는 메세지가 있는지 확인하시고
있다면 시스템에서 자체적으로 분석한 점수(Score ##)를 확인하시기 바랍니다.
/var/adm/messages 또는
# adk -k unix.0 vmcore.0
$<msgbuf
를 통해서 확인하실 수 있습니다.
예 1) CPU10번 교체대상
WARNING: [AFT1] WP event on CPU10, errID 0x000d99f1.038e8d48
AFSR 0x00000000.00800400<WP> AFAR 0x000001c4.f8800030
AFSR.PSYND 0x0400(Score 95) AFSR.ETS 0x00 Fault_PC 0x100826b0
UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0000 UDBL.ESYND 0x00
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.1f00daa0
AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.1f00daa0 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.1f00daa0 PA=0x00000000.7ae96330
E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.1f00daa0: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.1f00daa0 Above Error detected by protected Kernel code
that will try to clear error from system
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.21d007bc
AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.21d007bc Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.21d007bc PA=0x00000000.7ae96330
E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.21d007bc: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.21d007bc Above Error detected by protected Kernel code
that will try to clear error from system
WARNING: [AFT1] errID 0x000d99f5.a9d4e269 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f5.a9d4e269 PA=0x00000000.7ae96330
E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
syncing file systems...panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944
예 2) CPU 14번 교체대상
WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000db615.44f55a6b Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000db615.44f55a6b PA=0x00000000.490b9038
E$tag 0x00000000.0fc00921 E$State: Modified E$parity 0x07
[AFT2] E$Data (0x00): 0x00000000.701d7b24
[AFT2] E$Data (0x08): 0x00000000.baddcafe
[AFT2] E$Data (0x10): 0x00000000.00000000
[AFT2] E$Data (0x18): 0x728f4f20.728f4f20
[AFT2] E$Data (0x20): 0x00000000.00000000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.baddcafe
[AFT2] E$Data (0x38): 0x00000000.00100000 *Bad* PSYND=0x00ff
WARNING: [AFT1] CP event on CPU14 (caused Data access error on CPU10), errID 0x0
00db615.44f55a6b
AFSR 0x00000000.01000004<CP> AFAR 0x00000000.490b9038
AFSR.PSYND 0x0004(Score 95) AFSR.ETS 0x00
UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x00c8 UDBL.ESYND 0xc8
WARNING: [AFT2] errID 0x000db615.44f55a6b No cache dump available
panic[cpu10]/thread=701d7b20: [AFT1] errID 0x000db615.44f55a6b UE Error(s)
See previous message(s) for details
syncing file systems...WARNING: tmp_putapage: err 5
[21] 4WARNING: tmp_putapage: err 5
[21] 2panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944
+++++++++++++++++++++++++++++++++++++++++++++++++++++++
시스템에 패닉이 발생하면서 리부팅 될때는 여러가지 원인이 있을 수 있습니다.
그중 한가지 유형의 분석을 돕기 위해서 아래의 패치들에 추가된 기능이
있습니다.
Solaris 2.5.1 : 103640-34
Solaris 2.6 : 105181-23
Solaris 7 : 106541-13
Solaris 8 : 108528-04
아래의 메세지를 자세히 보시면 (Score 05)라는 부분이 있습니다.
이것은 위의 패치들이 적용되 있을 경우에만 나타나는 메세지로
메세지에 나타나는 CPU가 패닉의 원인을 제공한것인지의 여부에 대한
점수를 100점 만점의 수치로 보여줍니다. 점수는 05 에서 95중
어느 값을 가질 수도 있지만 거의 항상 05나 95점 둘중에 하나가
지정됩니다.(Score 05: 패닉을 유발하지 않음, Score 95: 패닉 유발/교체 대상)
WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
점수는 AFSR(Asynchronous Fault Status Register)에 저장되어 있는
비트값에 의거하여 지정됩니다. CPU와 CPU에서 데이타를
서로 주고 받을 때 하드웨어/소프트웨어의 문제로 인해
데이타의 완결성이 깨질수가 있습니다. 데이타가 깨진 것을 발견하면
그때의 상황에 따라 AFSR 레지스터에 각각의 비트가 세팅됩니다.
(80200000 = 10000000001000000000000000000000)
AFSR의 값을 확인해 보면 어떤 CPU가 데이타를 요청했고 어떤 CPU가
데이타를 보내는 것이 였는지를 확인할 수가 있습니다. 데이타를
요청한 CPU는 불량이 아니겠지요. 그러나 일일이 32비트 값을 항상 확인할
수는 없고 따라서 필드 엔지니어들의 업무를 수월하게 하기 위해서 시스템은
패닉으로 리부팅되면서 자체 분석을 통해서 점수를 보여주는 것입니다.
시스템에 패닉이 발생할 때 패닉 메세지를 자세히 확인해 보시기 바랍니다.
AFSR 0x00000000.######## 의 패턴을 갖는 메세지가 있는지 확인하시고
있다면 시스템에서 자체적으로 분석한 점수(Score ##)를 확인하시기 바랍니다.
/var/adm/messages 또는
# adk -k unix.0 vmcore.0
$<msgbuf
를 통해서 확인하실 수 있습니다.
예 1) CPU10번 교체대상
WARNING: [AFT1] WP event on CPU10, errID 0x000d99f1.038e8d48
AFSR 0x00000000.00800400<WP> AFAR 0x000001c4.f8800030
AFSR.PSYND 0x0400(Score 95) AFSR.ETS 0x00 Fault_PC 0x100826b0
UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0000 UDBL.ESYND 0x00
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.1f00daa0
AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.1f00daa0 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.1f00daa0 PA=0x00000000.7ae96330
E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.1f00daa0: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.1f00daa0 Above Error detected by protected Kernel code
that will try to clear error from system
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.21d007bc
AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.21d007bc Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.21d007bc PA=0x00000000.7ae96330
E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.21d007bc: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.21d007bc Above Error detected by protected Kernel code
that will try to clear error from system
WARNING: [AFT1] errID 0x000d99f5.a9d4e269 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f5.a9d4e269 PA=0x00000000.7ae96330
E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
syncing file systems...panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944
예 2) CPU 14번 교체대상
WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000db615.44f55a6b Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000db615.44f55a6b PA=0x00000000.490b9038
E$tag 0x00000000.0fc00921 E$State: Modified E$parity 0x07
[AFT2] E$Data (0x00): 0x00000000.701d7b24
[AFT2] E$Data (0x08): 0x00000000.baddcafe
[AFT2] E$Data (0x10): 0x00000000.00000000
[AFT2] E$Data (0x18): 0x728f4f20.728f4f20
[AFT2] E$Data (0x20): 0x00000000.00000000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.baddcafe
[AFT2] E$Data (0x38): 0x00000000.00100000 *Bad* PSYND=0x00ff
WARNING: [AFT1] CP event on CPU14 (caused Data access error on CPU10), errID 0x0
00db615.44f55a6b
AFSR 0x00000000.01000004<CP> AFAR 0x00000000.490b9038
AFSR.PSYND 0x0004(Score 95) AFSR.ETS 0x00
UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x00c8 UDBL.ESYND 0xc8
WARNING: [AFT2] errID 0x000db615.44f55a6b No cache dump available
panic[cpu10]/thread=701d7b20: [AFT1] errID 0x000db615.44f55a6b UE Error(s)
See previous message(s) for details
syncing file systems...WARNING: tmp_putapage: err 5
[21] 4WARNING: tmp_putapage: err 5
[21] 2panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944