문의 주신 내용에 맞는 전문 컨설턴트 배정 후 연락드리겠습니다.
안녕하세요
오늘은 NAVER CLOUD PLATFORM 모니터링 시스템을 만들어 보려 합니다.
물론 NCP monitoring 서비스가 다양한 메트릭에 대해 임계치 기준으로 트리거 발생 시 SMS 혹은 email로 알람 기능을 제공하고 있습니다. 그리고 아래 그림과 같이 메트릭 별 그래프 서비스도 제공하고 있습니다.
[caption id="attachment_4817" align="alignnone" width="1748"] <NCP 상세 모니터링 서비스>[/caption]
이 기능을 이용해서 클라우드 인프라를 관리할 수 있지만, 기존 회사 내부적으로 사용하고 있는 모니터링 시스템과의 통합이 필요하거나 다양한 Custom 메트릭에 대한 알람을 설정하기 위해서는 NCP를 위한 추가 모니터링 시스템 구축이 필요할 수 있습니다.
그래서 오늘은 오픈소스 모니터링 솔루션인 Zabbix를 이용해서 NCP 인프라 모니터링 시스템을 만들어 보려 합니다.
(Zabbix 설정 관련 자세한 설명은 매뉴얼로 대체하겠습니다. )
1) Zabbix 설치
모드 (active(10051), passive(10050))에 따라 VM ACL 설정 필요하며, 통신 정상화 확인은 Zabbix-server에서 key(agent.version)에 대한 value(1.8.22)를 제대로 받아오는지 확인해보시면 됩니다.
실 환경이라면 NCP 클라우드 인프라가 수용된 IDC 이슈에 대비하여 모니터링 서버를 타 퍼블릭 클라우드에 구성하거나 존 별 분리를 통해 구성하는 것을 추천드립니다.
(여기서는 Zabbix-server는 KR-2, 모니터링 대상 서버들은 KR-1 존에 두었으며, DB replication 작업은 따로 진행하지 않았습니다.)
2) 설정 작업
Zabbix 설치 후 이제는 Zabbix 대시보드에서 모니터링 설정을 진행해봐야겠죠?
기본 템플릿을 이용해서 몇 가지 항목 (ping, cpu, memory, disk, network in/out) 관련 트리거를 설정했습니다.
설정한 메트릭에 대한 그래프도 확인할 수 있습니다.
만약 신규로 생성된 VM을 매번 Zabbix 콘솔에서 모니터링 설정해줘야 한다면 귀찮아지겠죠?
Zabbix는 설정한 네트워크 범위에 새롭게 감지되는 VM에 대해서 사전 설정한 Key의 value에 따라 자동 템플릿 설정이 가능합니다.
3) 테스트
모니터링 대상 VM을 정지 했습니다.
Zabbix 대시보드에서 아래와 같이 장애가 감지 되었네요.
매번 Zabbix 콘솔을 보고 있을 수 없으니 SMS 혹은 email, slack 등과 연동이 필요합니다.
여기서는 email 연동 통해서 알람을 받아봤습니다.
NCP VM stop 상태("NSTOP") 카운트를 주기적으로 체크해서 이전 카운트와 다를 때 트리거 되는 Custom 메트릭 설정 후 알람을 받아봤습니다.
오늘은 여기까지입니다.
감사합니다.