AWS 비용 급증을 처음 발견했을 때 보는 체크리스트

비용 급증은 대부분 패턴이 있다

AWS 비용이 갑자기 늘어날 때 가장 흔한 반응은 “어디서 왜?”를 전체 서비스에서 찾는 것입니다.
그러다 보면 시간이 오래 걸리고, 놓치는 경우도 생깁니다.

실제 비용 급증은 대부분 아래 몇 가지 패턴 중 하나입니다.

인스턴스나 컨테이너가 의도치 않게 많이 떴다
데이터 전송 비용이 폭증했다
스토리지에 쌓이는 게 삭제가 안 됐다
개발 환경이 종료되지 않았다
리소스 스케줄링이 꺼졌다

이 패턴을 알면 범위를 빠르게 좁힐 수 있습니다.

Step 1: Cost Explorer로 어느 서비스인지 특정한다

Cost Explorer에서 서비스별 비용을 일 단위로 내려보면
급증이 시작된 날짜와 어느 서비스에서 올라갔는지 파악됩니다.

확인 순서:

서비스별 비용 (EC2, RDS, S3, Data Transfer, ECS, Lambda 등)
날짜 필터를 좁혀서 급증 시작 시점 확인
리전별로 분리해서 특정 리전인지 전체인지 확인

Data Transfer가 올랐다면 — 다음 섹션으로 바로 건너뜁니다.
EC2 / ECS가 올랐다면 — 인스턴스 수 급증 여부를 확인합니다.
S3가 올랐다면 — 저장 용량과 GET/PUT 요청 수를 함께 봅니다.

Step 2: 서비스별 원인 체크리스트

EC2 / ECS 비용이 올랐을 때

□ Auto Scaling 상한이 올라가 있지 않은가
□ Spot Fleet / On-Demand 혼합에서 Spot 비율이 줄었는가
□ 개발/스테이징 환경이 종료되지 않았는가
□ AMI 기반 인스턴스가 복구 후 삭제되지 않았는가
□ 고성능 인스턴스 타입으로 의도치 않게 변경됐는가

RDS 비용이 올랐을 때

□ 스냅샷이 예상보다 오래 보관되고 있지 않은가
□ Multi-AZ가 단일 인스턴스로 계획됐는데 켜져 있지 않은가
□ 스토리지 자동 확장이 늘어난 채로 줄어들지 않고 있는가
□ 읽기 복제본이 필요 없어졌는데 삭제되지 않았는가

S3 비용이 올랐을 때

□ 라이프사이클 정책이 의도대로 동작하고 있는가
□ 버전 관리 활성화 후 이전 버전이 쌓이고 있지 않은가
□ 로그 버킷에 rotation이 없어서 무한정 쌓이고 있지 않은가
□ Intelligent-Tiering 비용이 소규모 객체에서 오히려 높아지지 않는가

Data Transfer 비용이 올랐을 때

Data Transfer는 가장 놓치기 쉬운 항목입니다.

□ 리전 간 데이터 복제가 추가됐는가
□ ALB → EC2 트래픽이 AZ를 넘어 가고 있지 않은가
□ 외부(인터넷) 나가는 트래픽이 늘었는가
□ CloudFront 없이 S3에서 직접 대용량 파일을 내리고 있는가
□ NAT Gateway를 통해 나가는 트래픽이 많아졌는가

NAT Gateway 비용은 의외로 큽니다.
EC2 → NAT → 인터넷 경로에서 데이터 처리량 × 시간으로 과금됩니다.
S3나 DynamoDB는 Gateway VPC Endpoint를 붙이면 NAT를 통하지 않습니다.

Step 3: 빠른 완화 조치 순서

급증 원인이 특정됐을 때 바로 조치할 수 있는 것들입니다.

즉시 가능한 조치

사용하지 않는 EC2/RDS 인스턴스 중지 또는 삭제
Auto Scaling 상한 원복
개발 환경 일괄 종료 (스케줄러가 꺼진 경우)

1~2일 내 조치

S3 라이프사이클 정책 추가 또는 수정
NAT Gateway 대신 VPC Endpoint 전환 검토
불필요한 데이터 복제 경로 제거

1주일 내 조치

Savings Plans / Reserved Instance 검토
리소스 태그 정책 강제 적용 (Cost Allocation Tags)
개발·스테이징 환경 자동 종료 스케줄 복구

Step 4: 재발 방지를 위한 알림 설정

조치 후에는 다음 번에 빠르게 잡을 수 있도록 알림을 겁니다.

AWS Budgets → 월간 예산 대비 80% 도달 시 알림
Cost Anomaly Detection → 서비스별 이상 감지 알림
CloudWatch → EC2 인스턴스 수 임계값 초과 알림

Cost Anomaly Detection은 설정이 간단하고 머신러닝으로 이상 패턴을 감지합니다.
사용하고 있지 않다면 먼저 켜두는 것이 좋습니다.

정리

비용 급증 대응은 순서가 중요합니다.

1. Cost Explorer로 서비스와 날짜 특정
2. 서비스별 체크리스트로 원인 좁히기
3. 즉시 조치 가능한 것부터 처리
4. 알림 설정으로 다음 번 대응 시간 단축

전체를 한 번에 뒤지는 것보다, 패턴 기반으로 빠르게 범위를 좁히는 게 핵심입니다.