서버 전원 오동작 문제를 임시조치로 해결한 경험담입니다.
서버모델은 DL360, OS는 Centos 7
장애 증상은,
어느날 갑자기, 서버 전원이 저절로 꺼져버립니다.
전원버튼을 눌러서 Power On을 하면, 잠시 후 다시 꺼집니다.
서버가 켜졌을 때 로그들을 살펴보니,
"Power key pressed" 그리고, "Powering Off" 메시지가 나타나면서 서버가 꺼집니다.
$ sudo cat /var/log/messages | grep Power
Jun 15 14:20:33 localhost systemd-logind: Power key pressed.
Jun 15 14:20:33 localhost systemd-logind: Powering Off...
Jun 15 14:35:04 localhost kernel: input: Power Button as /devices/LNXSYSTM:00/LNXPWRBN:00/input/input0
Jun 15 14:35:04 localhost kernel: ACPI: Power Button [PWRF]
Jun 15 14:35:10 localhost systemd-logind: Watching system buttons on /dev/input/event0 (Power Button)
Jun 15 14:46:27 localhost systemd-logind: Power key pressed.
Jun 15 14:46:27 localhost systemd-logind: Powering Off...
Jun 15 14:54:14 localhost kernel: input: Power Button as /devices/LNXSYSTM:00/LNXPWRBN:00/input/input0
Jun 15 14:54:14 localhost kernel: ACPI: Power Button [PWRF]
Jun 15 14:54:20 localhost systemd-logind: Watching system buttons on /dev/input/event0 (Power Button)
Jun 15 15:47:19 localhost systemd-logind: Power key pressed.
Jun 15 15:47:19 localhost systemd-logind: Powering Off...

원인은,
서버 전원모듈 어딘가에 고장이거나, 전원부 케이블 커넥터 불량이 의심됩니다.
하드웨어 A/S를 받아야하지만, 이중화되어 있지않은 싱글 서버이다보니, 서비스를 어떻게든 살려야 했습니다.
임시조치로,
Power key 메시지를 OS에서 무시하는 옵션을 사용해봅니다.
$ sudo vi /etc/systemd/logind.conf
HandlePowerKey=ignore
$
또는
$ sudo echo "HandlePowerKey=ignore" >> /etc/systemd/logind.conf
그리고, 서비스 데몬을 재시작합니다.
$ sudo systemctl restart systemd-logind
결과는 . . . 성공적입니다.
Power key pressed 메시지는 계속 발생하지만, Powering Off 메시지는 더이상 발생하지 않고, 서버 전원이 꺼지지 않습니다.
$ sudo cat /var/log/messages | grep Power
Jun 15 17:03:50 localhost systemd-logind: Power key pressed.
Jun 15 18:59:16 localhost systemd-logind: Power key pressed.
Jun 15 19:02:15 localhost systemd-logind: Power key pressed.
Jun 15 19:10:08 localhost systemd-logind: Power key pressed.
Jun 15 19:23:13 localhost systemd-logind: Power key pressed.
Jun 15 19:27:22 localhost systemd-logind: Power key pressed.
Jun 15 20:45:27 localhost systemd-logind: Power key pressed.
Jun 15 21:51:18 localhost systemd-logind: Power key pressed.
Jun 15 22:57:40 localhost systemd-logind: Power key pressed.
Jun 15 23:00:03 localhost systemd-logind: Power key pressed.
Jun 15 23:03:40 localhost systemd-logind: Power key pressed.
Jun 15 23:09:34 localhost systemd-logind: Power key pressed.
Jun 15 23:12:33 localhost systemd-logind: Power key pressed.
Jun 15 23:18:06 localhost systemd-logind: Power key pressed.
Jun 15 23:20:43 localhost systemd-logind: Power key pressed.
Jun 15 23:22:07 localhost systemd-logind: Power key pressed.
Jun 16 00:02:25 localhost systemd-logind: Power key pressed.
Jun 16 00:23:59 localhost systemd-logind: Power key pressed.
Jun 16 00:35:15 localhost systemd-logind: Power key pressed.
. . .

하지만, 서버 상태는 여전히 고장이 있는 것이기 때문에,
당분간은 이 상태로 서버를 살려두고, 하드웨어 A/S 신청을 하고, 서버교체 일정에 맞춰 작업 공지를 띄웠습니다.
a few hours later . . . .
작업을 마치고 집으로 돌아가는 길에~
서버 엔지니어의 가상현실 "스탯창"에 알림이 뜹니다.
'띠링~ 띠링~'
경험치 +1 |
수명 +1 |
서버도 살고, 나도 살고~
오늘 선곡은 '기분 좋은 날 / 김완선' 입니다
'블라베 IT world > IT 관리자 운영 Tips' 카테고리의 다른 글
네임서버 설정 검사 : named-checkconf, named-checkzone (0) | 2022.04.22 |
---|---|
윈도PC 랜섬웨어 예방과 복구 방법 pdf, 랜섬웨어침해대응 (1) | 2021.10.16 |
(solved)GlobalProtect VPN WIFI connection problem on IPAD (0) | 2021.01.14 |
복합기 스캔메일 세팅에 gmail이용하면 안된다니? (SINDOH D420 서버연결오류) (3) | 2020.08.01 |
Bitnami/WordPress 웹페이지의 인증서 업데이트 방법 (0) | 2020.07.08 |