Cancel

[SRE] Ch10. Practical Alerting from Time-Series Data

Hans H. Kim on Aug 2, 20232023-08-02T00:00:00+09:00

Updated Nov 42025-11-05T02:27:46+09:00 2 min read

[SRE] Ch10. Practical Alerting from Time-Series Data

구글에서 발전시켜온 보그몬 이라는 모니터링 시스템을 소개하는 챕터.

시계열 데이터를 기반으로 시스템을 모니터링하는 방법과 어떤식으로 발전되어 왔는지에 대한 이야기가 나와있다.

시계열 데이터를 통한 모니터링이 무엇인지 잘 파악하지 못했었는데, 프로메테우스를 서비스에서 적극적으로 사용했던 나로서는 책을 읽으면서 조금 더 깊은 이해를 할 수 있었다 .

모니터링은 게층구조의 가장 밑바닥에 있음.
안정적인 서비스를 운영하기 위해서는 반드시 필요한 기본 구성 요소이다.

보그몬의 탄생

구글에서 2003년 보그가 탄생했고, 이를 바탕으로 새로운 모니터링 시스템인 Borgmon 이 완성됨
보그몬은 스크립트를 실행해서 장애를 탐지하는 것이 아니라, 공용 데이터 해설 형식을 이용함.
즉, 다량의 데이터를 수집하여 모니터링을 함.
화이트박스 모니터링임
프로메테우스와 매우 유사
- 보그몬의 쿼리도 Prometheus Query와 매우 유사

시계열 데이터를 위한 저장소

보그몬은 in-memory DB에 저장하고, 이를 다시 TSDB(Time-Series Database) 로 알려진 외부 시스템에 보관함
TSDB는 RAM보다는 상대적으로 느리지만, 저렴한 비용으로 더 많은 데이터를 보관할 수 있음.
RAM에 보관하고, 시간이 지나면서 가비지 컬렉터가 오래된 항목부터 제거함

알림

알림의 상태는 갈대처럼 나부낄 수 있음( 금세 다른 상태로 바뀔 수 있다는 의미)
이를 해결하기 위해서 최소 2번 이상 실행하도록 해서 알림을 보냄

sre google devops study book reliable

This post is licensed under CC BY 4.0 by the author.

Recent Update

Trending Tags

blog GitHub Pages jekyll theme jekyll NexT theme 지킬 블로그 포스팅 지킬 테마 Computer Science 개발 소프트웨어

Trending Tags

blog GitHub Pages jekyll theme jekyll NexT theme 지킬 블로그 포스팅 지킬 테마 Computer Science 개발 소프트웨어