개인 서버가 장애가 발생했습니다. 물론 자주 발생합니다만 오늘은 의미있는 장애 ㅡ.ㅡ;;;;
개인적으로 인스타그램에서 사용하는 스택 중에 사용하거나 대체품을 쓰는 것을 제외하고 쓰지 않는게 있다면 Munin이었습니다. 제가 아는 몇가지 모니터링 시스템들이 있지만 사용하기 무거워서 안 쓰고 있었고 다른 대체품을 찾고 있었는데 우연히 본 것이 munin 입니다. 사이트 가면 뭔말인지 잘 모르겠더군요. 알고보니 설치는 쉬워요. (더 있는 줄 알고 찾아 헤맨 것 이었습니다.)
증상 : 개인 서버의 ssh를 접속할 수 없는 증상. 물론 웹(http)서버들은 정상 가동하였습니다.
ssh_exchange_identification: connection closed by remote host
5일전에도 발생
하지만 다행하게도 munin을 장애 발생 7시간 전에 설치를 완료하고 가동 중이었습니다. 아주 기본 항목만을 가지고 실행했기때문에 반신반의하며 그래프를 살펴봤습니다.
다른 그래프들은 문제가 없었다고 판단이 되고 다음 3가지 그래프가 눈에 띕니다. 그래프 보시면 알 수 있듯이 얼마 몇 시간만에 발생됩니다. ㅋ
물론 대충 만들어서 그렇습니다. ㅋㅋ
초당 60개 이상의 fork 되면서 수분만에 3만여개가 생성이되서 더 이상 만들 수 없었던 것 입니다. 기존에 생성된 process 들은 문제가 없이 잘 가동되었지만 신규 process를 생성하지 못 하면서 발생합니다.
다행히도 이 문제가 발생할 떄 terminal 을 접속한 상태였는데 아무것도 할 수 없었지만 오류 문구 하나는 얻었습니다. Locale이 아쉽게 한글로 되어있어서 영어 문구는 볼 수 없었습니다.
“-bash: fork: 메모리를 할당할 수 없습니다”
전 능력이 후달려서 이거의 도움이 절실함. 근데 도대체 무슨 process가 생성한 것인지는 알 수 없으나 감은 잡았습니다.


