[SRE] Ch10. Practical Alerting from Time-Series Data
구글에서 발전시켜온 보그몬 이라는 모니터링 시스템을 소개하는 챕터.
시계열 데이터를 기반으로 시스템을 모니터링하는 방법과 어떤식으로 발전되어 왔는지에 대한 이야기가 나와있다.
시계열 데이터를 통한 모니터링이 무엇인지 잘 파악하지 못했었는데, 프로메테우스를 서비스에서 적극적으로 사용했던 나로서는 책을 읽으면서 조금 더 깊은 이해를 할 수 있었다 .
- 모니터링은 게층구조의 가장 밑바닥에 있음.
- 안정적인 서비스를 운영하기 위해서는 반드시 필요한 기본 구성 요소이다.
보그몬의 탄생
- 구글에서 2003년 보그가 탄생했고, 이를 바탕으로 새로운 모니터링 시스템인 Borgmon 이 완성됨
- 보그몬은 스크립트를 실행해서 장애를 탐지하는 것이 아니라, 공용 데이터 해설 형식을 이용함.
- 즉, 다량의 데이터를 수집하여 모니터링을 함.
- 화이트박스 모니터링임
- 프로메테우스와 매우 유사
- 보그몬의 쿼리도 Prometheus Query와 매우 유사
시계열 데이터를 위한 저장소
- 보그몬은 in-memory DB에 저장하고, 이를 다시 TSDB(Time-Series Database) 로 알려진 외부 시스템에 보관함
- TSDB는 RAM보다는 상대적으로 느리지만, 저렴한 비용으로 더 많은 데이터를 보관할 수 있음.
- RAM에 보관하고, 시간이 지나면서 가비지 컬렉터가 오래된 항목부터 제거함
알림
- 알림의 상태는 갈대처럼 나부낄 수 있음( 금세 다른 상태로 바뀔 수 있다는 의미)
- 이를 해결하기 위해서 최소 2번 이상 실행하도록 해서 알림을 보냄