들어가기 앞서
앞서 포스팅한 EKS 업그레이드 장애에서 두번째 문제점이 발생했다. 해당 부분에 대한 포스팅을 진행하겠다.
https://hyukops.tistory.com/51
EKS 업그레이드 장애 (1) - WARM_IP_TARGET
들어가기 앞서현재 운영 중인 개발(DEV), 품질(QA), 운영(PROD) 환경의 EKS 클러스터는 모두 Kubernetes 1.29.0 버전을 사용하고 있다.AWS에서 3월 말부터 1.29.0 버전이 만료되면 추가 요금이 발생하므로 1.31.
hyukops.tistory.com
두번째 문제점 발생
추가로 CoreDNS 혹은 CSI Driver 등과 같은 EKS 관리형 애드온들의 설치가 진행되지 않았다. coredns에서 지속적으로 AWS VPC network와 udp 통신에 실패하는 에러를 확인할 수 있었다.
---------------------------------------------
# CoreDNS 에러로그
[ERROR] plugin/errors: 2 7980301774212992218.8726469711935381644. HINFO: read udp 100.72.8.29:56791->100.72.8.2:53: i/o timeout
[ERROR] plugin/errors: 2 7980301774212992218.8726469711935381644. HINFO: read udp 100.72.8.29:52151->100.72.8.2:53: i/o timeout
[ERROR] plugin/errors: 2 7980301774212992218.8726469711935381644. HINFO: read udp 100.72.8.29:51175->100.72.8.2:53: i/o timeout
[ERROR] plugin/errors: 2 7980301774212992218.8726469711935381644. HINFO: read udp 100.72.8.29:38349->100.72.8.2:53: i/o timeout
[ERROR] plugin/errors: 2 7980301774212992218.8726469711935381644. HINFO: read udp 100.72.8.29:34071->100.72.8.2:53: i/o timeout
---------------------------------------------
두번째 문제점 해결
노드의 보안그룹 설정에는 문제가 없었기 때문에 사용중인 노드 환경을 살펴본 결과, 'net.ipv4.ip_forward=0' 인 것을 확인할 수 있었다. 해당 설정은 커널의 IPv4 Forwarding 관련 설정으로, 들어온 네트워크 패킷을 다른 네트워크 인터페이스로 전달할 수 있는 기능에 대한 설정이다. 금융권 특성상 CSPM (외부 취약점 점검) 을 위한 설정으로 해당 설정을 0으로 커스텀 하였고, coredns가 요청하는 ipv4 패킷을 vpc network로 포워딩할 수 없도록 설정되어 coredns가 정상적으로 동작하지 못하였다.
해당 값은 노드에서 사용하는 Golden Image AMI 에 반영되어 있어, 이미지를 수정하여 새로 구성해 다시 DevOps 계정에 공유하고 노드 그룹의 Launch Template 변경 ( Using Terraform) 을 통한 Rolling Upgrade 를 다시 진행하였다. 'net.ipv4.ip_forward=0' 설정을 1로 변경한 후에 정상적으로 coredns가 동작하는 것을 확인하였고, 다른 비정상 pod들도 다시 동작하는 것을 확인하였다.
결론
오전 11시에 사전작업을 시작하여 대략 오후 10시 30분에 끝났다. 점심, 저녁 식사를 모두 못하면서 작업에만 몰두했고 업그레이드 완료 후 기진맥진한 상태였다.. ㅎㅎ 폐쇄망 환경 업그레이드는 굉장히 까다롭고 어려웠다.. 하지만 굉장히 값진 경험을 하여 매우매우 좋다 ^^
'Kubernetes & EKS > k8s 운영 특이사항' 카테고리의 다른 글
| [kubernetes] failed to create pod sandbox 에러 발생 (2) | 2025.08.24 |
|---|---|
| [kubernetes] HPA loop 현상 해결 및 Best Practice (3) | 2025.07.30 |
| [kubernetes] 데몬셋 파드 Pending 현상 (PriorityClass) (0) | 2025.06.26 |
| [kubernetes] EKS의 Burstable 인스턴스 타입 변경 문제 (0) | 2025.05.08 |
| [kubernetes] EKS 업그레이드 장애 (1) - IP 할당 정책 수정 (0) | 2025.03.08 |