LLM 평가 데이터셋 설계 플레이북 - 정답셋보다 중요한 운영 기준선 만들기

평가가 어려운 이유는 모델이 아니라 기준 때문이다

LLM 서비스 운영에서 많은 팀이 비슷한 문제를 겪습니다.

모델을 바꿨는데 좋아졌는지 확신이 없다
프롬프트를 수정했는데 일부 케이스만 나빠졌다
RAG 검색 품질이 흔들리는데 어디가 원인인지 모른다
데모는 잘 되는데 운영에서는 불만이 쌓인다

이때 자주 나오는 반응은 “평가셋을 만들자”입니다.
방향은 맞지만, 실제로는 평가셋이 있어도 잘 안 굴러가는 경우가 많습니다.

이유는 평가 데이터셋이 너무 단순하기 때문입니다.

보기 좋은 대표 질문만 모아둔다
정답이 너무 짧고 추상적이다
실제 실패 케이스가 빠져 있다
검색형 질문과 추론형 질문이 섞여 있다

즉, 데이터셋이 “모델 시연용”이지 “운영 판단용”이 아닌 상태입니다.

좋은 평가셋은 정답 모음이 아니라 운영 기준선이다

평가셋의 목적은 단순히 점수를 내는 것이 아닙니다.
실무에서는 아래 세 가지 역할이 더 중요합니다.

1. 변경 전후 비교 기준

프롬프트 변경
검색 전략 변경
모델 교체
chunking 조정
reranker 추가

무언가를 바꾸기 전후에 어떤 영역이 좋아졌고 어떤 영역이 나빠졌는지 볼 수 있어야 합니다.

2. 실패 패턴 보관소

운영 중 발생했던 문제를 잊지 않고 다시 검증하는 용도입니다.

근거 없는 확신
오래된 문서 참조
문맥 누락
표 형식 깨짐
특정 용어 오해

이 실패 패턴이 평가셋에 들어가야 서비스가 실제로 강해집니다.

3. 팀 간 합의 문서

무엇을 좋은 답변으로 볼 것인지에 대한 기준을 정리하는 도구이기도 합니다.

정답성만 중요한가
근거 제시가 필요한가
길이는 어느 정도가 적절한가
불확실하면 모른다고 말해야 하는가

평가셋은 결국 제품, 모델, 운영 기준을 하나로 묶는 문서입니다.

평가 데이터셋은 4개 층으로 나누는 것이 좋다

한 덩어리 데이터셋은 운영에서 잘 쓰이지 않습니다.
아래처럼 층을 나눠야 변화 원인을 읽기 쉽습니다.

1. 핵심 대표 질문층

가장 자주 들어오는 질문과 핵심 가치 질문입니다.

FAQ
대표 업무 시나리오
고객이 실제로 많이 묻는 질문

이 층은 “서비스가 기본 기능을 여전히 잘하는가”를 봅니다.

2. 검색 민감 질문층

RAG 품질이 크게 좌우하는 질문입니다.

문서 버전 차이
비슷한 정책 비교
특정 날짜 기준 정보
내부 용어 포함 질문

이 층은 검색 품질이 흔들릴 때 가장 빨리 반응합니다.

3. 추론 복합 질문층

문서를 그냥 찾는 것으로 끝나지 않고, 여러 근거를 조합해야 하는 질문입니다.

두 정책 비교
예외 조건 정리
장단점 요약
상황별 권장안 제시

이 층은 모델의 추론, 정리, 구조화 품질을 봅니다.

4. 실패 회귀 질문층

운영에서 실제 문제를 냈던 질문만 모은 층입니다.

이 층이 가장 중요합니다.

과거 hallucination 케이스
잘못된 수치 응답
문서 누락으로 틀린 답변
답은 맞지만 근거가 틀린 케이스

서비스 품질은 데모 질문보다 실패 회귀 질문에서 결정됩니다.

정답은 하나가 아닐 수 있다

평가셋이 자주 망가지는 이유 중 하나는 정답을 너무 딱딱하게 만드는 것입니다.

예를 들어 이런 질문이 있습니다.

운영 장애 분석 문서를 요약하고 다음 액션을 제안해줘

이 질문은 한 문장짜리 정답이 있는 문제가 아닙니다.
그래서 정답 대신 “좋은 답변 조건”을 정의하는 것이 더 낫습니다.

예시:

장애 원인을 구분해서 설명했는가
영향 범위를 언급했는가
즉시 조치와 장기 개선을 나눴는가
근거 문서를 참조했는가

즉, 일부 질문은 exact answer보다 rubric-based evaluation이 더 현실적입니다.

데이터셋에 꼭 들어가야 하는 메타데이터

질문과 정답만 있으면 운영에서 금방 막힙니다.
아래 메타데이터를 함께 넣는 편이 훨씬 좋습니다.

질문 유형: 검색형 / 추론형 / 요약형 / 비교형
난이도: 쉬움 / 보통 / 어려움
중요도: 핵심 / 일반 / 회귀
근거 문서 ID
기대 행동: 모른다고 답변 / 비교 표 제시 / 단계별 정리
민감 영역: 최신성 / 수치 정확성 / 정책 해석

이 메타데이터가 있어야 모델 변경 시 어디서 흔들렸는지 빠르게 볼 수 있습니다.

작은 평가셋으로도 시작할 수 있다

처음부터 1,000개를 만들 필요는 없습니다.
실무에서는 오히려 60개에서 120개 정도의 “강한 질문셋”이 더 유용한 경우가 많습니다.

마무리

LLM 평가 데이터셋은 단순히 모델 성능을 숫자로 보는 도구가 아닙니다.
서비스를 바꾸고 운영할 때 팀이 흔들리지 않게 만드는 기준선입니다.

핵심은 아래 세 가지입니다.

대표 질문보다 실패 회귀 질문을 더 중요하게 볼 것
정답 하나가 없는 문제는 rubric 기반으로 평가할 것
질문과 정답만이 아니라 운영 메타데이터까지 함께 저장할 것

평가셋이 잘 설계되면 모델이 바뀌어도 서비스 품질은 덜 흔들립니다.
좋은 데이터셋은 결국 “지금 이 서비스가 무엇을 잘해야 하는가”를 가장 명확하게 보여주는 운영 문서입니다.