Kafka Consumer Lag 장애 분석 - 적체가 커질 때 어디부터 봐야 할까
Kafka 운영 중 Consumer Lag이 급격히 증가하면 단순히 consumer 수를 늘리는 것으로 끝나지 않는 경우가 많습니다. 이 글에서는 lag 발생 패턴, broker 문제와 consumer 문제의 구분, 재처리 지연, partition 불균형, 외부 의존성 병목까지 실제 장애 분석 흐름으로 정리합니다.
Kafka 운영 중 Consumer Lag이 급격히 증가하면 단순히 consumer 수를 늘리는 것으로 끝나지 않는 경우가 많습니다. 이 글에서는 lag 발생 패턴, broker 문제와 consumer 문제의 구분, 재처리 지연, partition 불균형, 외부 의존성 병목까지 실제 장애 분석 흐름으로 정리합니다.
Kafka 기반 시스템에서 메시지 처리 실패를 어떻게 다뤄야 하는지 설명합니다. DLQ가 필요한 이유, 어떤 메시지를 DLQ로 보낼지, 재처리 전략과 운영 체크포인트까지 실무 중심으로 정리합니다.