TestForge | 📊 Plogger ✍️ Blog 📚 Docs
TestForge Blog

AI DevOps Korea

AI 서비스 운영과 성능개선을 위한 실전 허브

aidevops.kr에서 LLMOps, RAG, AI Agent, 평가, 관측성, 비용-성능 튜닝을 운영팀 관점으로 정리합니다.

← 모든 태그

#operations

16개의 포스트

LLM 운영 지표 설계 - 모델을 바꾸기 전에 봐야 할 것들

AI 제품이 데모에서 끝나지 않으려면 모델 성능 비교보다 운영 지표 설계가 먼저입니다. 어떤 지표를 기준선으로 삼을지, 실패 케이스를 어떻게 분류할지, 품질 저하를 언제 감지할지 실무 기준으로 정리합니다.

Kafka Consumer Lag 장애 분석 - 적체가 커질 때 어디부터 봐야 할까

Kafka 운영 중 Consumer Lag이 급격히 증가하면 단순히 consumer 수를 늘리는 것으로 끝나지 않는 경우가 많습니다. 이 글에서는 lag 발생 패턴, broker 문제와 consumer 문제의 구분, 재처리 지연, partition 불균형, 외부 의존성 병목까지 실제 장애 분석 흐름으로 정리합니다.