1. LLM A/B 테스트가 실패하는 가장 흔한 이유LLM 기반 서비스에서 A/B 테스트를 시도하는 팀은 많지만, 그 결과를 신뢰하는 팀은 생각보다 적다. 테스트를 했음에도 불구하고 “결론을 내리기 어렵다”거나 “결국 감으로 결정했다”는 말이 반복된다면, 이는 실행력이 부족해서가 아니라 설계 단계에서 이미 실험이 흔들렸기 때문일 가능성이 높다. 특히 프롬프트, 모델, 검색 조합이 동시에 얽혀 있는 경우라면 그 위험은 훨씬 커진다.전통적인 A/B 테스트는 비교적 단순하다. 버튼 색상, 문구, 레이아웃처럼 하나의 변수만 바꾸고 나머지는 고정한다. 그러나 LLM 환경에서는 이 전제가 쉽게 무너진다. 프롬프트를 조금만 바꿔도 모델의 응답 분포가 달라지고, 모델을 바꾸면 검색 결과의 활용 방식이 변하며, 검색 구..