Home [SRE] Ch10. Practical Alerting from Time-Series Data
Post
Cancel

[SRE] Ch10. Practical Alerting from Time-Series Data

[SRE] Ch10. Practical Alerting from Time-Series Data

구글에서 발전시켜온 보그몬 이라는 모니터링 시스템을 소개하는 챕터.

시계열 데이터를 기반으로 시스템을 모니터링하는 방법과 어떤식으로 발전되어 왔는지에 대한 이야기가 나와있다.

시계열 데이터를 통한 모니터링이 무엇인지 잘 파악하지 못했었는데, 프로메테우스를 서비스에서 적극적으로 사용했던 나로서는 책을 읽으면서 조금 더 깊은 이해를 할 수 있었다 .

image

  • 모니터링은 게층구조의 가장 밑바닥에 있음.
  • 안정적인 서비스를 운영하기 위해서는 반드시 필요한 기본 구성 요소이다.

보그몬의 탄생

  • 구글에서 2003년 보그가 탄생했고, 이를 바탕으로 새로운 모니터링 시스템인 Borgmon 이 완성됨
  • 보그몬은 스크립트를 실행해서 장애를 탐지하는 것이 아니라, 공용 데이터 해설 형식을 이용함.
  • 즉, 다량의 데이터를 수집하여 모니터링을 함.
  • 화이트박스 모니터링임
  • 프로메테우스와 매우 유사
    • 보그몬의 쿼리도 Prometheus Query와 매우 유사

    image

시계열 데이터를 위한 저장소

  • 보그몬은 in-memory DB에 저장하고, 이를 다시 TSDB(Time-Series Database) 로 알려진 외부 시스템에 보관함
  • TSDB는 RAM보다는 상대적으로 느리지만, 저렴한 비용으로 더 많은 데이터를 보관할 수 있음.
  • RAM에 보관하고, 시간이 지나면서 가비지 컬렉터가 오래된 항목부터 제거함

알림

  • 알림의 상태는 갈대처럼 나부낄 수 있음( 금세 다른 상태로 바뀔 수 있다는 의미)
  • 이를 해결하기 위해서 최소 2번 이상 실행하도록 해서 알림을 보냄 image
This post is licensed under CC BY 4.0 by the author.

[SRE] Ch09. Simplicity

[SRE] Ch11. Being On-Call