DB 커넥션 풀 고갈 장애 대응 플레이북 - HikariCP timeout부터 커넥션 누수 추적까지
서비스가 갑자기 DB에 연결하지 못할 때 어떤 순서로 원인을 추적하는지, HikariCP 지표에서 무엇을 봐야 하는지, 누수인지 과부하인지 어떻게 구분하는지 장애 대응 관점에서 정리합니다.
AI DevOps Korea
aidevops.kr에서 LLMOps, RAG, AI Agent, 평가, 관측성, 비용-성능 튜닝을 운영팀 관점으로 정리합니다.
러닝 게임
장애 키워드를 읽고 가장 먼저 떠올려야 하는 대응 포인트를 골라보세요.
진행도
1 / 6
점수
0
연속 정답
0
배지
개념 탐험가
숫자키 1-4로도 바로 답할 수 있어요.
주제어
1 posts
서비스가 갑자기 DB에 연결하지 못할 때 어떤 순서로 원인을 추적하는지, HikariCP 지표에서 무엇을 봐야 하는지, 누수인지 과부하인지 어떻게 구분하는지 장애 대응 관점에서 정리합니다.
3 posts
Redis 메모리 사용량이 급증할 때 어떤 지표를 먼저 봐야 하는지, eviction 정책은 언제 도움이 되고 언제 더 위험한지, 장애 복구와 재발 방지를 어떻게 나눠야 하는지 정리합니다.
운영 중 자주 발생하는 장애 중 하나인 데이터베이스 커넥션 고갈 문제를 실무적으로 분석합니다. 애플리케이션 풀 설정, 느린 쿼리, 커넥션 누수, 트래픽 급증 등 원인과 단계별 대응 방법을 설명합니다.
Redis 운영 중 실제로 마주치는 장애 패턴과 원인 분석 방법. OOM, 연결 고갈, Blocked client, Replication lag 등 사례별 해결책.
1 posts
Kafka 운영 중 Consumer Lag이 급격히 증가하면 단순히 consumer 수를 늘리는 것으로 끝나지 않는 경우가 많습니다. 이 글에서는 lag 발생 패턴, broker 문제와 consumer 문제의 구분, 재처리 지연, partition 불균형, 외부 의존성 병목까지 실제 장애 분석 흐름으로 정리합니다.
1 posts
Kubernetes Node가 NotReady 상태가 됐을 때 단계별 대응 방법. 원인 진단, 워크로드 대피, 복구 절차까지 실전 가이드.