시스템 패닉메시지 Score05/Score95

2010.05.12 03:05

조인상 조회 수:6770

원문 : http://www.ischo.net -- 조인상 // 시스템 엔지니어

Writer : http://www.ischo.net -- ischo // System Engineer in Replubic Of Korea

+++++++++++++++++++++++++++++++++++++++++++++++++++++++

 

본문 : http://www.ischo.net -- 조인상 //시스템 엔지니어

+++++++++++++++++++++++++++++++++++++++++++++++++++++++


시스템에 패닉이 발생하면서 리부팅 될때는 여러가지 원인이 있을 수 있습니다.
그중 한가지 유형의 분석을 돕기 위해서 아래의 패치들에 추가된 기능이
있습니다.

Solaris 2.5.1 : 103640-34
Solaris 2.6 : 105181-23
Solaris 7 : 106541-13
Solaris 8 : 108528-04

아래의 메세지를 자세히 보시면 (Score 05)라는 부분이 있습니다.
이것은 위의 패치들이 적용되 있을 경우에만 나타나는 메세지로
메세지에 나타나는 CPU가 패닉의 원인을 제공한것인지의 여부에 대한
점수를 100점 만점의 수치로 보여줍니다.  점수는 05 에서 95중
어느 값을 가질 수도 있지만 거의 항상 05나 95점 둘중에 하나가
지정됩니다.(Score 05: 패닉을 유발하지 않음, Score 95: 패닉 유발/교체 대상)

WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
    UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800

점수는 AFSR(Asynchronous Fault Status Register)에 저장되어 있는
비트값에 의거하여 지정됩니다.  CPU와 CPU에서 데이타를
서로 주고 받을 때 하드웨어/소프트웨어의 문제로 인해
데이타의 완결성이 깨질수가 있습니다.  데이타가 깨진 것을 발견하면
그때의 상황에 따라 AFSR 레지스터에 각각의 비트가 세팅됩니다.
(80200000 = 10000000001000000000000000000000)

AFSR의 값을 확인해 보면 어떤 CPU가 데이타를 요청했고 어떤 CPU가
데이타를 보내는 것이 였는지를 확인할 수가 있습니다.  데이타를
요청한 CPU는 불량이 아니겠지요. 그러나 일일이 32비트 값을 항상 확인할
수는 없고 따라서 필드 엔지니어들의 업무를 수월하게 하기 위해서 시스템은
패닉으로 리부팅되면서 자체 분석을 통해서 점수를 보여주는 것입니다.

시스템에 패닉이 발생할 때 패닉 메세지를 자세히 확인해 보시기 바랍니다.
AFSR 0x00000000.######## 의 패턴을 갖는 메세지가 있는지 확인하시고
있다면 시스템에서 자체적으로 분석한 점수(Score ##)를 확인하시기 바랍니다.

/var/adm/messages 또는

# adk -k unix.0 vmcore.0
$<msgbuf

를 통해서 확인하실 수 있습니다.


예 1) CPU10번 교체대상

WARNING: [AFT1] WP event on CPU10, errID 0x000d99f1.038e8d48
    AFSR 0x00000000.00800400<WP> AFAR 0x000001c4.f8800030
    AFSR.PSYND 0x0400(Score 95) AFSR.ETS 0x00 Fault_PC 0x100826b0
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0000 UDBL.ESYND 0x00
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.1f00daa0
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
    AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
    UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
    UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.1f00daa0 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.1f00daa0 PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.1f00daa0: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.1f00daa0 Above Error detected by protected Kernel code
    that will try to clear error from system
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.21d007bc
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
    AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
    UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
    UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.21d007bc Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.21d007bc PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.21d007bc: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.21d007bc Above Error detected by protected Kernel code
    that will try to clear error from system
WARNING: [AFT1] errID 0x000d99f5.a9d4e269 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f5.a9d4e269 PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
syncing file systems...panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944

예 2) CPU 14번 교체대상

WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
    UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000db615.44f55a6b Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000db615.44f55a6b PA=0x00000000.490b9038
    E$tag 0x00000000.0fc00921 E$State: Modified E$parity 0x07
[AFT2] E$Data (0x00): 0x00000000.701d7b24
[AFT2] E$Data (0x08): 0x00000000.baddcafe
[AFT2] E$Data (0x10): 0x00000000.00000000
[AFT2] E$Data (0x18): 0x728f4f20.728f4f20
[AFT2] E$Data (0x20): 0x00000000.00000000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.baddcafe
[AFT2] E$Data (0x38): 0x00000000.00100000 *Bad* PSYND=0x00ff
WARNING: [AFT1] CP event on CPU14 (caused Data access error on CPU10), errID 0x0
00db615.44f55a6b
    AFSR 0x00000000.01000004<CP> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0004(Score 95) AFSR.ETS 0x00
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x00c8 UDBL.ESYND 0xc8
WARNING: [AFT2] errID 0x000db615.44f55a6b No cache dump available
panic[cpu10]/thread=701d7b20: [AFT1] errID 0x000db615.44f55a6b UE Error(s)
    See previous message(s) for details
syncing file systems...WARNING: tmp_putapage: err 5

  [21] 4WARNING: tmp_putapage: err 5

  [21] 2panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944
번호 제목 글쓴이 날짜 조회 수
공지 [공지] 게시자료 열람자유. 불펌금지입니다. 조인상 2010.12.07 20324
33 테잎을 이용한 백업스크립트 조인상 2010.05.12 7851
32 bind 유틸 설치 조인상 2010.05.12 5589
31 솔라리스 버전별 유저수 / 한 파일시스템에 만들수 있는 파일개수 조인상 2010.05.12 9913
30 OBP 버전 확인 및 패치방법 조인상 2010.05.12 7313
29 OS 디스크 복사(dump) 하기 조인상 2010.05.12 9404
28 SDS RAID 5 에서 hotspare 디스크 교체 조인상 2010.05.12 8709
27 EIS install 방법 조인상 2010.05.12 13832
26 RACK 전원코드의 V(볼트)내역 조인상 2010.05.12 6291
25 SPARC 10의 / 파일시스템 용량제한 조인상 2010.05.12 6290
24 CDE화면으로 로그인이 안될때... 조인상 2010.05.12 6107
23 utmp, utmpx, wtmp 및 wtmpx 파일을 읽는 방법 조인상 2010.05.12 10051
22 vi편집기 이용하여 텍스트 암호화하기 조인상 2010.05.12 6371
» 시스템 패닉메시지 Score05/Score95 조인상 2010.05.12 6770
20 [install] Unable to connect to X Server 가 나오며 인스톨안될때 조인상 2010.05.12 8149
19 OS의 커널비트수 확인 및 수정 조인상 2010.05.12 6995
18 여러가지 백업방법에 대한 설명 조인상 2010.05.12 5807
17 각 network card에서 사용하는 network interface이름은? 조인상 2010.05.12 7768
16 cron에 의해 자동으로 ftp를 하여 화일을 송/수신 하게 하려면? 조인상 2010.05.12 5813
15 SDS로 구성한 볼륨에 디스크 교체하려고 할때 조인상 2010.05.12 6103
14 SDS 사용법 file 조인상 2010.05.12 6975
서버에 요청 중입니다. 잠시만 기다려 주십시오...