반응형

서버 전원 오동작 문제를 임시조치로 해결한 경험담입니다.

서버모델은 DL360, OS는 Centos 7

장애 증상은,
  어느날 갑자기, 서버 전원이 저절로 꺼져버립니다.
  전원버튼을 눌러서 Power On을 하면, 잠시 후 다시 꺼집니다.

서버가 켜졌을 때 로그들을 살펴보니,
  "Power key pressed" 그리고, "Powering Off" 메시지가 나타나면서 서버가 꺼집니다.

$ sudo cat /var/log/messages | grep Power
Jun 15 14:20:33 localhost systemd-logind: Power key pressed.
Jun 15 14:20:33 localhost systemd-logind: Powering Off...
Jun 15 14:35:04 localhost kernel: input: Power Button as /devices/LNXSYSTM:00/LNXPWRBN:00/input/input0
Jun 15 14:35:04 localhost kernel: ACPI: Power Button [PWRF]
Jun 15 14:35:10 localhost systemd-logind: Watching system buttons on /dev/input/event0 (Power Button)
Jun 15 14:46:27 localhost systemd-logind: Power key pressed.
Jun 15 14:46:27 localhost systemd-logind: Powering Off...
Jun 15 14:54:14 localhost kernel: input: Power Button as /devices/LNXSYSTM:00/LNXPWRBN:00/input/input0
Jun 15 14:54:14 localhost kernel: ACPI: Power Button [PWRF]
Jun 15 14:54:20 localhost systemd-logind: Watching system buttons on /dev/input/event0 (Power Button)
Jun 15 15:47:19 localhost systemd-logind: Power key pressed.
Jun 15 15:47:19 localhost systemd-logind: Powering Off...

원인은,
  서버 전원모듈 어딘가에 고장이거나, 전원부 케이블 커넥터 불량이 의심됩니다.
  하드웨어 A/S를 받아야하지만, 이중화되어 있지않은 싱글 서버이다보니, 서비스를 어떻게든 살려야 했습니다.

임시조치로,
   Power key 메시지를 OS에서 무시하는 옵션을 사용해봅니다. 

$ sudo vi /etc/systemd/logind.conf
HandlePowerKey=ignore
$

또는
$ sudo echo "HandlePowerKey=ignore" >> /etc/systemd/logind.conf

   그리고, 서비스 데몬을 재시작합니다.

$ sudo systemctl restart systemd-logind 

 

결과는 . . . 성공적입니다.
  Power key pressed 메시지는 계속 발생하지만, Powering Off 메시지는 더이상 발생하지 않고, 서버 전원이 꺼지지 않습니다.

$ sudo cat /var/log/messages | grep Power
Jun 15 17:03:50 localhost systemd-logind: Power key pressed.
Jun 15 18:59:16 localhost systemd-logind: Power key pressed.
Jun 15 19:02:15 localhost systemd-logind: Power key pressed.
Jun 15 19:10:08 localhost systemd-logind: Power key pressed.
Jun 15 19:23:13 localhost systemd-logind: Power key pressed.
Jun 15 19:27:22 localhost systemd-logind: Power key pressed.
Jun 15 20:45:27 localhost systemd-logind: Power key pressed.
Jun 15 21:51:18 localhost systemd-logind: Power key pressed.
Jun 15 22:57:40 localhost systemd-logind: Power key pressed.
Jun 15 23:00:03 localhost systemd-logind: Power key pressed.
Jun 15 23:03:40 localhost systemd-logind: Power key pressed.
Jun 15 23:09:34 localhost systemd-logind: Power key pressed.
Jun 15 23:12:33 localhost systemd-logind: Power key pressed.
Jun 15 23:18:06 localhost systemd-logind: Power key pressed.
Jun 15 23:20:43 localhost systemd-logind: Power key pressed.
Jun 15 23:22:07 localhost systemd-logind: Power key pressed.
Jun 16 00:02:25 localhost systemd-logind: Power key pressed.
Jun 16 00:23:59 localhost systemd-logind: Power key pressed.
Jun 16 00:35:15 localhost systemd-logind: Power key pressed.
. . .

 

   하지만, 서버 상태는 여전히 고장이 있는 것이기 때문에,
   당분간은 이 상태로 서버를 살려두고, 하드웨어 A/S 신청을 하고, 서버교체 일정에 맞춰 작업 공지를 띄웠습니다.

 

a few hours later . . . . 

 작업을 마치고 집으로 돌아가는 길에~
 서버 엔지니어의 가상현실 "스탯창"에 알림이 뜹니다. 

     '띠링~ 띠링~'

                   경험치 +1
                   수명 +1

 

서버도 살고, 나도 살고~

오늘 선곡은 '기분 좋은 날 / 김완선' 입니다 

https://youtu.be/HrT8etFFzlc

 

반응형

+ Recent posts