lightsail, 오랜만에 또 졸도.

작년 1월 이후, 오랜만에 또 정신을 잃으셨다. 누가? 바로 이 글을 담고 있는 아마존 서버가.
친절한 JetPack 덕에, 위급 상황에 바로 연락을 받았다. PC 를 켤 수 없었기에, 휴대폰으로 lightsail 관리자 페이지로 접속하여 보니, CPU 사용률이 하늘을 찌르고 있었다.

재부팅을 수행했지만, 그마저도 듣지 않았다. 하여 강제 종료후 재시작했더니 문제는 사라졌는데..


몇시간 후, PC 에 앉아서 서버에 접속한 후 로그를 살펴봤다.
문제는 크론이 수행하는 /usr/lib/php/sessionclean 에 있었다. 얘가 뭐하는 건지, 왜 얘때문에 CPU 사용률이 100% 가까이 오른 건지는 아직 확인하지 못했다.

아무튼 원흉은 저 분.
왜 그랬던 걸까? 자세한 사항은 알아내는대로 덧붙여 보기로.

그래도, 원인이 확실해서 다행이네.


2021.6.27 새벽 6시. 동일 증상 반복.
원흉이 쟤라고 주장한 근거는 뭐였을까?
단지 문제가 발생했던 시간에 수행된 프로세스라서??

원인은 그게 아닌 듯 한데.. 어떻게 알아봐야할지 좀 난감하네.


2021.9.13 새벽 5시?. 역시 동일 증상.
그러나, 이번엔 journalctl 을 통해 왜 그런 현상이 있었는지는 알아냈다.
매일 새벽 3시에 예약되어 있는 재부팅을 수행하다가, 뭔가 문제가 생겨서 재부팅이 되지 않는 현상이 있었다.
정확하게는, 종료 작업 중에 뭔가 문제가 생겼고, 재부팅은 그 문제 때문에 계속 지연되는 일종의 무한루프에 빠져버렸다.

그 ‘문제’가 뭔지는 알아내지 못했지만..
(그나마, US Open 결승전(조코비치:메드베데프)을 보려고 알람을 5시 맞춰놨었기에 이 사실을 그나마 일찍 알게 됐다. 늦게 알았어도 별 문제는 없었겠지만.. 시스템에 문제가 있다는 메일이 와 있었으나, 밤엔 소리가 안나게 꺼놓기에 알 수가 없었지..)

한가지 이상한 점을 발견하긴 했다. 바로 Accounts 서비스인데, 이게 보통 때보다 8분이나 늦게 종료가 됐다.

# 평상 시
 9월 12 03:00:01 nemo_webserver systemd[1]: Stopping Accounts Service...
 9월 12 03:00:01 nemo_webserver systemd[1]: Stopped Accounts Service.

# 문제 발생 시
 9월 13 03:00:33 nemo_webserver systemd[1]: Stopping Accounts Service...
 9월 13 03:08:44 nemo_webserver systemd[1]: Stopped Accounts Service.

이런 식으로 몇몇 서비스들 종료가 수분씩 뒤로 밀리면서 뭔가 교착상태에 빠진 모양인데..
이걸 내가 방지할 수 있으려나..?

이런 상황을 방지하려고 재부팅을 매일 걸어둔 건데, 재부팅으로 인해 문제에 빠지다니, 거 참..


2021.11.28 오후 10시경.

한참 Arch 에 빠져있는데, 난데없이 서버가 또 졸도하셨다는 메일이 날아왔다.
재부팅도 잘안되는 상황이라 강제로 중지후 다시 시작했더니 되긴 했는데..

혹 문제가 mariadbd 와 oom-killer 에 있는지도 모르겠다. 그저 얼핏 봤을 뿐이라서. 헌데, 얘가 왜 갑자기 이런 시간에? 사람이 몇명 오지도 않았는데..?
아직 우분투 18.04 에 머물고 있는데, 이것도 바꿔줘야 하려나.. 이래 저래 귀찮은 일들만 계속 생기는군..

Author: 아무도안

안녕하세요. 글 남겨주셔서 고맙습니다.