TestForge Blog
← 전체 포스트

LLM 평가 데이터셋 설계 플레이북 - 정답셋보다 중요한 운영 기준선 만들기

LLM 서비스 품질을 안정적으로 관리하려면 평가 데이터셋을 어떻게 구성해야 하는지, 단순 Q&A 정답셋을 넘어서 실제 실패 패턴과 운영 기준선을 어떻게 정의해야 하는지 정리합니다.

TestForge Team ·

평가가 어려운 이유는 모델이 아니라 기준 때문이다

LLM 서비스 운영에서 많은 팀이 비슷한 문제를 겪습니다.

  • 모델을 바꿨는데 좋아졌는지 확신이 없다
  • 프롬프트를 수정했는데 일부 케이스만 나빠졌다
  • RAG 검색 품질이 흔들리는데 어디가 원인인지 모른다
  • 데모는 잘 되는데 운영에서는 불만이 쌓인다

이때 자주 나오는 반응은 “평가셋을 만들자”입니다.
방향은 맞지만, 실제로는 평가셋이 있어도 잘 안 굴러가는 경우가 많습니다.

이유는 평가 데이터셋이 너무 단순하기 때문입니다.

  • 보기 좋은 대표 질문만 모아둔다
  • 정답이 너무 짧고 추상적이다
  • 실제 실패 케이스가 빠져 있다
  • 검색형 질문과 추론형 질문이 섞여 있다

즉, 데이터셋이 “모델 시연용”이지 “운영 판단용”이 아닌 상태입니다.

좋은 평가셋은 정답 모음이 아니라 운영 기준선이다

평가셋의 목적은 단순히 점수를 내는 것이 아닙니다.
실무에서는 아래 세 가지 역할이 더 중요합니다.

1. 변경 전후 비교 기준

  • 프롬프트 변경
  • 검색 전략 변경
  • 모델 교체
  • chunking 조정
  • reranker 추가

무언가를 바꾸기 전후에 어떤 영역이 좋아졌고 어떤 영역이 나빠졌는지 볼 수 있어야 합니다.

2. 실패 패턴 보관소

운영 중 발생했던 문제를 잊지 않고 다시 검증하는 용도입니다.

  • 근거 없는 확신
  • 오래된 문서 참조
  • 문맥 누락
  • 표 형식 깨짐
  • 특정 용어 오해

이 실패 패턴이 평가셋에 들어가야 서비스가 실제로 강해집니다.

3. 팀 간 합의 문서

무엇을 좋은 답변으로 볼 것인지에 대한 기준을 정리하는 도구이기도 합니다.

  • 정답성만 중요한가
  • 근거 제시가 필요한가
  • 길이는 어느 정도가 적절한가
  • 불확실하면 모른다고 말해야 하는가

평가셋은 결국 제품, 모델, 운영 기준을 하나로 묶는 문서입니다.

평가 데이터셋은 4개 층으로 나누는 것이 좋다

한 덩어리 데이터셋은 운영에서 잘 쓰이지 않습니다.
아래처럼 층을 나눠야 변화 원인을 읽기 쉽습니다.

1. 핵심 대표 질문층

가장 자주 들어오는 질문과 핵심 가치 질문입니다.

  • FAQ
  • 대표 업무 시나리오
  • 고객이 실제로 많이 묻는 질문

이 층은 “서비스가 기본 기능을 여전히 잘하는가”를 봅니다.

2. 검색 민감 질문층

RAG 품질이 크게 좌우하는 질문입니다.

  • 문서 버전 차이
  • 비슷한 정책 비교
  • 특정 날짜 기준 정보
  • 내부 용어 포함 질문

이 층은 검색 품질이 흔들릴 때 가장 빨리 반응합니다.

3. 추론 복합 질문층

문서를 그냥 찾는 것으로 끝나지 않고, 여러 근거를 조합해야 하는 질문입니다.

  • 두 정책 비교
  • 예외 조건 정리
  • 장단점 요약
  • 상황별 권장안 제시

이 층은 모델의 추론, 정리, 구조화 품질을 봅니다.

4. 실패 회귀 질문층

운영에서 실제 문제를 냈던 질문만 모은 층입니다.

이 층이 가장 중요합니다.

  • 과거 hallucination 케이스
  • 잘못된 수치 응답
  • 문서 누락으로 틀린 답변
  • 답은 맞지만 근거가 틀린 케이스

서비스 품질은 데모 질문보다 실패 회귀 질문에서 결정됩니다.

정답은 하나가 아닐 수 있다

평가셋이 자주 망가지는 이유 중 하나는 정답을 너무 딱딱하게 만드는 것입니다.

예를 들어 이런 질문이 있습니다.

운영 장애 분석 문서를 요약하고 다음 액션을 제안해줘

이 질문은 한 문장짜리 정답이 있는 문제가 아닙니다.
그래서 정답 대신 “좋은 답변 조건”을 정의하는 것이 더 낫습니다.

예시:

  • 장애 원인을 구분해서 설명했는가
  • 영향 범위를 언급했는가
  • 즉시 조치와 장기 개선을 나눴는가
  • 근거 문서를 참조했는가

즉, 일부 질문은 exact answer보다 rubric-based evaluation이 더 현실적입니다.

데이터셋에 꼭 들어가야 하는 메타데이터

질문과 정답만 있으면 운영에서 금방 막힙니다.
아래 메타데이터를 함께 넣는 편이 훨씬 좋습니다.

  • 질문 유형: 검색형 / 추론형 / 요약형 / 비교형
  • 난이도: 쉬움 / 보통 / 어려움
  • 중요도: 핵심 / 일반 / 회귀
  • 근거 문서 ID
  • 기대 행동: 모른다고 답변 / 비교 표 제시 / 단계별 정리
  • 민감 영역: 최신성 / 수치 정확성 / 정책 해석

이 메타데이터가 있어야 모델 변경 시 어디서 흔들렸는지 빠르게 볼 수 있습니다.

작은 평가셋으로도 시작할 수 있다

처음부터 1,000개를 만들 필요는 없습니다.
실무에서는 오히려 60개에서 120개 정도의 “강한 질문셋”이 더 유용한 경우가 많습니다.

추천 시작 구조:

  • 대표 질문 20개
  • 검색 민감 질문 20개
  • 추론 복합 질문 10개
  • 실패 회귀 질문 10개

총 60개 정도만 있어도 프롬프트 변경이나 모델 교체 시 충분히 큰 신호를 줍니다.

그리고 운영 중 새로운 실패가 발견될 때마다 회귀 질문층에 추가하면 됩니다.

마무리

LLM 평가 데이터셋은 단순히 모델 성능을 숫자로 보는 도구가 아닙니다.
서비스를 바꾸고 운영할 때 팀이 흔들리지 않게 만드는 기준선입니다.

핵심은 아래 세 가지입니다.

  • 대표 질문보다 실패 회귀 질문을 더 중요하게 볼 것
  • 정답 하나가 없는 문제는 rubric 기반으로 평가할 것
  • 질문과 정답만이 아니라 운영 메타데이터까지 함께 저장할 것

평가셋이 잘 설계되면 모델이 바뀌어도 서비스 품질은 덜 흔들립니다.
좋은 데이터셋은 결국 “지금 이 서비스가 무엇을 잘해야 하는가”를 가장 명확하게 보여주는 운영 문서입니다.