Home [SRE] Ch07. The Evolution of Automation at Google
Post
Cancel

[SRE] Ch07. The Evolution of Automation at Google

흑인 예술에 견줄 수 있는 것은 자동화기계화 뿐이다.

SRE 는 신뢰성을 관리하는 조직으로서 Human Error 와 불필요함을 요구하는 부분을 제거하는 작업은 필수적으로 보임!

  • 또한 자동화를 통해서 주어진 방향으로 힘을 더할 수 있음
  • 하지만, 정확률을 높여주는 것은 아님. 따라서 자동화도 잘 디자인 해야한다

자동화의 가치

일관성

  • 정확하게 정의된 업무 범위와 정해진 절차를 수행하기 위해서 일관성은 매우 중요함!

플랫폼

  • 올바르게 디자인해서 구현된 자동 시스템은 확장성 있고, 이윤을 창출할 수도 있는 플랫폼을 제공함
    • ex. borg
  • 플랫폼을 사용하면 휴먼에러를 줄이고, 실수를 중앙집중화할 수 있음

더 신속한 수리와 더 신속한 조치

  • 사람이 하는 것 보다 자동화를 통해 기계가 해당 이슈를 처리하는게 훨씬 빠름

시간 절감

  • 물론 시간 절감도 됨!

구글 SRE의 가치

  • 용이성확장성을 중요시 함
  • 구글은 내부적으로 자동화 플랫폼 혹은 자동화 작업을 정말 많이 함!
  • 외부에서 살 수 있어도 내부에서 구현하곤 함
    • 그래서 k8s같은게 나올 수 있는 건가…

자동화의 사례

  • 그냥 아무것이나 자동화를 해버리면 시스템만 늘어나고 관리 포인트가 늘어나게되면서 로드만 더 걸림.
  • 따라서 잘 해야함
  • 시스템 자동화의 단계
    1. 자동화를 하지 않는 단계 (작업자가 수동으로 실행)
    2. 별도로 관리되며 시스템에 특화된 자동화를 수행 (작업자가 시스템에 맞게 작성한 장애 대응 스크립트를 돌림)
    3. 별도로 관리되는 범용 자동화 수행 (모두가 함께 사용하는 범용 장애대응 스크립트로 수행)
    4. 내재화되었지만 시스템에 특화된 자동화를 수행 (시스템 자체적으로 스크립트 실행)
    5. 자동화가 불필요한 시스템을 도입 (사람 개입없이 자동으로 장애 대응)
  • MySQL 예시와 클러스터 턴업 예시
    • → 적합성, 지연시간, 연관성을 중요시 하며 자동화가 진행됨

Hub and Spock

image

This post is licensed under CC BY 4.0 by the author.

[SRE] Ch06. Monitoring Distrubuted Systems

[Linux] mmap() 에 대해서