평가셋을 ‘정답’이 아니라 ‘행동 기준’으로 만드는 법

dohaii040603 2026. 2. 4. 14:15

1. 평가셋이 망가지는 순간은 ‘정답’을 믿기 시작할 때다

대부분의 평가셋은 처음부터 선한 의도로 만들어진다. 모델이 잘 작동하는지 확인하고, 이전 버전과 비교하며, 품질이 나아졌는지 판단하기 위해서다. 그러나 시간이 지나면 평가셋은 이상한 권위를 갖게 된다. 점수가 오르면 “좋아졌다”고 말하고, 점수가 떨어지면 “나빠졌다”고 단정하는 기준이 된다. 이때부터 평가셋은 도구가 아니라 판사가 된다. 그리고 바로 이 지점에서 평가셋은 제품을 망가뜨리기 시작한다.

문제의 핵심은 평가셋이 ‘정답’을 담고 있다고 믿는 태도다. 많은 팀이 평가셋의 레이블을 현실의 정답으로 간주한다. 하지만 실제 제품 환경에서 정답은 거의 존재하지 않는다. 사용자의 질문은 모호하고, 기대는 사람마다 다르며, 맥락은 매 순간 바뀐다. 그럼에도 불구하고 평가셋은 고정된 답을 요구한다. 이 불일치는 점점 커지고, 모델은 사용자보다 평가셋을 만족시키는 방향으로 학습되거나 조정된다.

이 과정에서 아주 흔한 현상이 발생한다. 모델은 평가셋에서는 점점 더 좋아지지만, 실제 사용자 경험은 나아지지 않는다. 오히려 응답이 부자연스러워지거나, 지나치게 교과서적이 되거나, 위험을 과도하게 회피하는 방향으로 흐른다. 이는 모델이 잘못된 것이 아니라, 평가 기준이 잘못된 것이다. 평가셋이 ‘무엇이 옳은가’를 묻는 순간, 모델은 현실이 아니라 시험 문제를 풀기 시작한다.

그래서 평가셋을 다시 정의해야 한다. 평가셋은 정답을 담은 목록이 아니라, 모델이 어떻게 행동해야 하는지를 보여주는 기준이어야 한다. 다시 말해 “이 질문의 답은 이것이다”가 아니라, “이 상황에서 이런 태도로, 이런 방향으로 응답하는 것이 바람직하다”를 설명하는 장치여야 한다. 이 관점 전환이 없으면, 평가셋은 점점 더 정교해질수록 제품과 멀어진다.

2. 행동 기준으로서의 평가셋은 ‘결과’가 아니라 ‘선택’을 본다

행동 기준으로 평가셋을 설계한다는 것은, 결과의 정확성보다 모델의 선택 과정을 중시한다는 의미다. 기존 평가셋은 주로 최종 출력만 비교한다. 문장이 맞았는지, 정보가 정확한지, 특정 키워드가 포함되었는지를 본다. 하지만 실제 품질을 결정하는 것은 출력 이전의 수많은 선택들이다. 얼마나 단정적으로 말했는지, 불확실성을 어떻게 표현했는지, 위험한 질문을 어떻게 다뤘는지 같은 요소들이 사용자 경험을 좌우한다.

행동 기준 평가셋은 이 지점을 겨냥한다. 예를 들어 답을 모르는 상황에서 모델이 어떻게 반응해야 하는지를 명시한다. 무조건 회피해야 하는지, 제한된 범위에서 설명해야 하는지, 혹은 추가 정보를 요청해야 하는지를 행동 기준으로 정의한다. 이렇게 되면 평가의 초점은 “맞았는가”가 아니라 “의도한 행동을 했는가”로 이동한다.

이 방식의 중요한 특징은 평가셋이 단일 답을 요구하지 않는다는 점이다. 여러 응답이 허용될 수 있다. 다만 그 응답들이 공통적으로 지켜야 할 태도와 방향성이 있다. 이는 평가를 느슨하게 만드는 것이 아니라, 오히려 더 엄격하게 만든다. 모델은 자유롭게 말할 수 있지만, 아무렇게나 말할 수는 없게 된다. 행동의 범위는 넓어지되, 경계는 분명해진다.

또 하나 중요한 변화는 평가셋이 모델 개발자뿐 아니라 제품 팀, 정책 팀, 운영 팀의 합의물이 된다는 점이다. 행동 기준은 기술적 판단만으로 정해지지 않는다. 사용자 신뢰, 법적 리스크, 브랜드 톤 같은 요소들이 함께 반영된다. 이 과정에서 평가셋은 더 이상 내부 테스트용 데이터가 아니라, 조직의 판단 기준이 응축된 문서가 된다. 모델은 이 문서를 학습하는 것이 아니라, 이 문서에 맞춰 행동하도록 길들여진다.

3. 좋은 행동 기준 평가셋은 ‘채점’보다 ‘비교’를 잘한다

행동 기준 평가셋의 목적은 점수를 만드는 것이 아니다. 물론 수치화는 여전히 필요하다. 하지만 그 수치는 합격과 불합격을 가르는 선이 아니라, 차이를 설명하기 위한 도구여야 한다. 이 평가셋의 진짜 힘은 두 모델, 두 프롬프트, 두 설정을 비교할 때 드러난다. 어느 쪽이 행동 기준에 더 일관되게 부합하는지를 보여주는 것이다.

이때 중요한 것은 평가 항목의 언어다. “정확함”, “완전함” 같은 추상적인 표현은 행동 기준으로 작동하지 않는다. 대신 “불확실성을 명시적으로 언급하는가”, “위험한 요청을 즉시 차단하지 않고 안전한 대안을 제시하는가”, “사용자의 감정 상태를 고려한 어조를 유지하는가”처럼 관찰 가능한 행동으로 정의되어야 한다. 이런 기준은 사람 평가자뿐 아니라 자동화된 평가에서도 활용될 수 있다.

또한 행동 기준 평가셋은 실패를 숨기지 않는다. 오히려 실패를 드러내기 쉽게 만든다. 어떤 기준에서 일관성이 깨졌는지, 어떤 유형의 입력에서 행동이 흔들리는지를 명확히 보여준다. 이는 모델을 벌주기 위한 것이 아니라, 다음 개선의 방향을 잡기 위함이다. 점수만 있는 평가셋은 토론을 막지만, 행동 기준이 있는 평가셋은 토론을 촉진한다.

이 과정에서 평가셋은 점점 살아 있는 구조물이 된다. 한 번 만들고 끝나는 것이 아니라, 제품이 진화함에 따라 기준도 함께 조정된다. 새로운 리스크가 등장하면 행동 기준이 추가되고, 더 이상 중요하지 않은 기준은 약화된다. 중요한 점은 평가셋이 변해도 철학은 유지된다는 것이다. 정답을 찾는 것이 아니라, 바람직한 행동을 정의한다는 철학 말이다.

4. 평가셋을 행동 기준으로 바꾸면 제품 운영 방식이 달라진다

평가셋이 행동 기준으로 재설계되면, 모델 개발과 운영 전반의 분위기가 바뀐다. 점수에 대한 집착이 줄어들고, 의사결정의 언어가 달라진다. “이번 버전은 몇 점 올랐나” 대신 “이 상황에서 더 나은 선택을 하는가”라는 질문이 중심이 된다. 이는 개발자에게도, 기획자에게도 훨씬 현실적인 기준이다.

특히 이 변화는 배포 결정에서 큰 차이를 만든다. 기존에는 특정 점수 임계값을 넘었는지가 배포 여부를 결정했다면, 이제는 행동 기준 충족 여부가 더 중요해진다. 일부 점수가 떨어졌더라도, 핵심 행동 기준이 안정적으로 지켜진다면 배포를 선택할 수 있다. 반대로 점수가 좋아 보여도, 중요한 행동 기준이 무너졌다면 배포를 보류한다. 이 판단은 훨씬 제품 중심적이다.

장기적으로 보면, 행동 기준 평가셋은 조직의 학습 속도를 높인다. 실패가 점수 하락이라는 추상적 신호가 아니라, 특정 행동의 붕괴라는 구체적 형태로 드러나기 때문이다. 팀은 무엇을 고쳐야 할지 더 빨리 이해하고, 불필요한 논쟁을 줄인다. 평가셋은 더 이상 방패나 무기가 아니라, 나침반 역할을 하게 된다.

결국 평가셋을 ‘정답’이 아니라 ‘행동 기준’으로 만든다는 것은, 모델을 시험 문제 풀이 기계가 아니라 실제 세계에서 행동하는 주체로 대우한다는 의미다. 이 전환이 이루어질 때, 평가셋은 비로소 제품의 일부가 된다. 그리고 그때부터 모델의 성능은 숫자가 아니라, 신뢰 가능한 행동의 축적으로 설명되기 시작한다.