Home
Hyunwoo Kim
Cancel

[CISCO 네트워킹] 8. 라우팅 프로토콜과의 한판

RIP 라는 라우팅 프로토콜에 대한 이야기 RIP (Routing Information Protocol) 라우팅 프로토콜 다이내믹 프로토콜 내부용 라우팅 프로토콜(IGP) 디스턴스 백터 알고리즘 라우터가 좋은 길을 경정하는 기준이 되는 요소 → Hop 카운트 디폴트 라우팅 업데이트 주기 → 30초 RIP 장 단점 ...

[etcd] [Docs Learning] Client Design

etcd 공식 Docs 의 Learning 문서를 보고 공부 및 해석한 내용을 기록합니다. Docs Introduction etcd server has proven its robustness with years of failure injection testing Using Data store and etcd server, most...

[etcd] [Docs Learning] Data Model

etcd 공식 Docs 의 Learning 문서를 보고 공부 및 해석한 내용을 기록합니다. Data Model Docs “A persistent, multi-version, concurrency-control data model” (유지되고, Multi version 이면서, 동시성 컨트롤이 되는 데이터 구조) “et...

[Infiniband] NCCL WARN Call to ibv_reg_mr failed 이슈 해결

개요 Infiniband 네트워크를 사용하는 클러스터에서 Multi Node 분산 학습을 실행할 때 NCCL WARN Call to ibv_reg_mr failed 에러가 발생하는 경우가 있음. 아래와 같이 에러가 발생하면서 학습이 중단되는 케이스가 있다. ibvwrap.c: 106 NCCL WARN Call to ibv_reg_mr failed...

[K8S] 5.4.0-132 커널의 epoll 버그로 인한 etcd leader election 이슈

[k8s] 5.4.0-132 커널의 epoll 버그로 인한 etcd leader election 이슈 사용 중인 클러스터의 Control plane 은 Master[1:3] 노드로 구성되어있고 HA 구성이 되어있는 상태. Kubernetes 는 Control plane 노드에서 etcd 라는 Database 를 Kuberne...

[K8S] Kuberntes에서 A100 GPU Node 의 MIG 설정하기

개요 A100 GPU 의 경우 MIG(Multi-Instance GPU) 사용이 가능합니다. 이를 통해서 1장의 GPU 카드를 작은 용량으로 쪼개어서 사용할 수 있습니다. ref. NVIDIA MIG DOCS 예를 들어 A100 40GB GPU 카드 8장이 붙은 Node 를 가정해보겠습니다. nvidia-smi 로 조회 시 아래와 같이 GP...

[K8S] 같은 노드의 CoreDNS 로의 응답이 없는 이슈 (dns resolution failed)

Description coreDNS pod와 다른 pod가 같은 노드에 떠있으면, 간헐적으로 dns query 응답을 받지 못하는 이슈 dns resolution failed tcpdump 확인 결과 coreDNS가 같은 노드의 다른 pod에 대해서 ARP reply를 받지 못함. CoreDNS 란? CoreDNS : r...

[K8S] Kubespray로 만든 Kubernetes 클러스터의 Master 1번 Node 장애 복구

Description Kubernetes 클러스터의 Master Node에서 Disk 장애가 발생함 [HAWKEYE] kernel:: [22329228.540857] blk_update_request: I/O error, dev sda, sector 795030104 op 0x0:(READ) flags 0x0 phys_seg 1 prio ...

[GPU] uncorrectable ECC 에러로 인한 GPU 카드 인식 불가 현상

Description 수백장의 GPU 카드를 기반으로 한 Kubernetes on-premise 클러스터를 운영하는 도중, 갑자기 특정 장비에 꽂혀있는 8장의 GPU 중 1장의 카드가 인식이 안되는 현상이 발생 아래와 같이 해당 노드를 kubectl describe node 로 확인하였을 때는, 1장이 누락된 7장만 Allocatable 로...

[K8S] Prometheus 의 Disk Pressure 현상

Description Kuberntes 환경에서 모니터링을 위해서 Prometheus를 사용 중. Prometheus는 kube-prometheus-stack 에서 확인할 수 있듯이 Statefulset을 사용하고 있음 Prometheus 는 수집하고 있는 메트릭을 보존할 필요가 있고, Stable 한 네트워크를 가지고 ...