LLM 평가 데이터셋 설계 플레이북 - 정답셋보다 중요한 운영 기준선 만들기
LLM 서비스 품질을 안정적으로 관리하려면 평가 데이터셋을 어떻게 구성해야 하는지, 단순 Q&A 정답셋을 넘어서 실제 실패 패턴과 운영 기준선을 어떻게 정의해야 하는지 정리합니다.
평가가 어려운 이유는 모델이 아니라 기준 때문이다
LLM 서비스 운영에서 많은 팀이 비슷한 문제를 겪습니다.
- 모델을 바꿨는데 좋아졌는지 확신이 없다
- 프롬프트를 수정했는데 일부 케이스만 나빠졌다
- RAG 검색 품질이 흔들리는데 어디가 원인인지 모른다
- 데모는 잘 되는데 운영에서는 불만이 쌓인다
이때 자주 나오는 반응은 “평가셋을 만들자”입니다.
방향은 맞지만, 실제로는 평가셋이 있어도 잘 안 굴러가는 경우가 많습니다.
이유는 평가 데이터셋이 너무 단순하기 때문입니다.
- 보기 좋은 대표 질문만 모아둔다
- 정답이 너무 짧고 추상적이다
- 실제 실패 케이스가 빠져 있다
- 검색형 질문과 추론형 질문이 섞여 있다
즉, 데이터셋이 “모델 시연용”이지 “운영 판단용”이 아닌 상태입니다.
좋은 평가셋은 정답 모음이 아니라 운영 기준선이다
평가셋의 목적은 단순히 점수를 내는 것이 아닙니다.
실무에서는 아래 세 가지 역할이 더 중요합니다.
1. 변경 전후 비교 기준
- 프롬프트 변경
- 검색 전략 변경
- 모델 교체
- chunking 조정
- reranker 추가
무언가를 바꾸기 전후에 어떤 영역이 좋아졌고 어떤 영역이 나빠졌는지 볼 수 있어야 합니다.
2. 실패 패턴 보관소
운영 중 발생했던 문제를 잊지 않고 다시 검증하는 용도입니다.
- 근거 없는 확신
- 오래된 문서 참조
- 문맥 누락
- 표 형식 깨짐
- 특정 용어 오해
이 실패 패턴이 평가셋에 들어가야 서비스가 실제로 강해집니다.
3. 팀 간 합의 문서
무엇을 좋은 답변으로 볼 것인지에 대한 기준을 정리하는 도구이기도 합니다.
- 정답성만 중요한가
- 근거 제시가 필요한가
- 길이는 어느 정도가 적절한가
- 불확실하면 모른다고 말해야 하는가
평가셋은 결국 제품, 모델, 운영 기준을 하나로 묶는 문서입니다.
평가 데이터셋은 4개 층으로 나누는 것이 좋다
한 덩어리 데이터셋은 운영에서 잘 쓰이지 않습니다.
아래처럼 층을 나눠야 변화 원인을 읽기 쉽습니다.
1. 핵심 대표 질문층
가장 자주 들어오는 질문과 핵심 가치 질문입니다.
- FAQ
- 대표 업무 시나리오
- 고객이 실제로 많이 묻는 질문
이 층은 “서비스가 기본 기능을 여전히 잘하는가”를 봅니다.
2. 검색 민감 질문층
RAG 품질이 크게 좌우하는 질문입니다.
- 문서 버전 차이
- 비슷한 정책 비교
- 특정 날짜 기준 정보
- 내부 용어 포함 질문
이 층은 검색 품질이 흔들릴 때 가장 빨리 반응합니다.
3. 추론 복합 질문층
문서를 그냥 찾는 것으로 끝나지 않고, 여러 근거를 조합해야 하는 질문입니다.
- 두 정책 비교
- 예외 조건 정리
- 장단점 요약
- 상황별 권장안 제시
이 층은 모델의 추론, 정리, 구조화 품질을 봅니다.
4. 실패 회귀 질문층
운영에서 실제 문제를 냈던 질문만 모은 층입니다.
이 층이 가장 중요합니다.
- 과거 hallucination 케이스
- 잘못된 수치 응답
- 문서 누락으로 틀린 답변
- 답은 맞지만 근거가 틀린 케이스
서비스 품질은 데모 질문보다 실패 회귀 질문에서 결정됩니다.
정답은 하나가 아닐 수 있다
평가셋이 자주 망가지는 이유 중 하나는 정답을 너무 딱딱하게 만드는 것입니다.
예를 들어 이런 질문이 있습니다.
운영 장애 분석 문서를 요약하고 다음 액션을 제안해줘
이 질문은 한 문장짜리 정답이 있는 문제가 아닙니다.
그래서 정답 대신 “좋은 답변 조건”을 정의하는 것이 더 낫습니다.
예시:
- 장애 원인을 구분해서 설명했는가
- 영향 범위를 언급했는가
- 즉시 조치와 장기 개선을 나눴는가
- 근거 문서를 참조했는가
즉, 일부 질문은 exact answer보다 rubric-based evaluation이 더 현실적입니다.
데이터셋에 꼭 들어가야 하는 메타데이터
질문과 정답만 있으면 운영에서 금방 막힙니다.
아래 메타데이터를 함께 넣는 편이 훨씬 좋습니다.
- 질문 유형: 검색형 / 추론형 / 요약형 / 비교형
- 난이도: 쉬움 / 보통 / 어려움
- 중요도: 핵심 / 일반 / 회귀
- 근거 문서 ID
- 기대 행동: 모른다고 답변 / 비교 표 제시 / 단계별 정리
- 민감 영역: 최신성 / 수치 정확성 / 정책 해석
이 메타데이터가 있어야 모델 변경 시 어디서 흔들렸는지 빠르게 볼 수 있습니다.
작은 평가셋으로도 시작할 수 있다
처음부터 1,000개를 만들 필요는 없습니다.
실무에서는 오히려 60개에서 120개 정도의 “강한 질문셋”이 더 유용한 경우가 많습니다.
추천 시작 구조:
- 대표 질문 20개
- 검색 민감 질문 20개
- 추론 복합 질문 10개
- 실패 회귀 질문 10개
총 60개 정도만 있어도 프롬프트 변경이나 모델 교체 시 충분히 큰 신호를 줍니다.
그리고 운영 중 새로운 실패가 발견될 때마다 회귀 질문층에 추가하면 됩니다.
마무리
LLM 평가 데이터셋은 단순히 모델 성능을 숫자로 보는 도구가 아닙니다.
서비스를 바꾸고 운영할 때 팀이 흔들리지 않게 만드는 기준선입니다.
핵심은 아래 세 가지입니다.
- 대표 질문보다 실패 회귀 질문을 더 중요하게 볼 것
- 정답 하나가 없는 문제는 rubric 기반으로 평가할 것
- 질문과 정답만이 아니라 운영 메타데이터까지 함께 저장할 것
평가셋이 잘 설계되면 모델이 바뀌어도 서비스 품질은 덜 흔들립니다.
좋은 데이터셋은 결국 “지금 이 서비스가 무엇을 잘해야 하는가”를 가장 명확하게 보여주는 운영 문서입니다.