1. 추론 방식의 문제는 속도가 아니라 ‘운영 구조’다대규모 모델을 실제 서비스나 시스템에 적용할 때 가장 먼저 마주하는 질문 중 하나는 “어떤 방식으로 추론을 수행할 것인가”이다. 이 질문은 흔히 배치 추론(batch inference)과 스트리밍 추론(streaming inference)이라는 두 가지 선택지로 단순화된다. 하지만 이 선택은 단순히 속도나 기술 트렌드의 문제가 아니라, 시스템을 어떤 방식으로 운영할 것인가에 대한 구조적 결정에 가깝다.배치 추론은 일정량의 데이터를 모아 한 번에 처리하는 방식이다. 반면 스트리밍 추론은 요청이 들어오는 즉시, 혹은 매우 짧은 지연을 두고 연속적으로 처리하는 방식이다. 표면적으로 보면 하나는 “느리지만 효율적인 방식”, 다른 하나는 “빠르지만 부담이 큰 ..