1. GPU 없는 추론을 다시 생각하다: 제약이 아니라 설계 조건으로인공지능 추론을 이야기할 때 GPU는 거의 당연한 전제처럼 등장한다. 대규모 모델, 높은 처리량, 빠른 응답 속도라는 키워드는 자연스럽게 GPU 기반 환경을 연상시킨다. 그러나 실제 서비스 환경에서는 GPU를 사용할 수 없거나, 사용하지 않는 편이 더 합리적인 경우도 많다. 비용, 전력 소비, 운영 복잡성, 배포 환경의 제약 등 다양한 이유로 인해 GPU 없이 동작하는 추론 파이프라인이 요구된다.중요한 점은 GPU가 없다고 해서 추론이 불가능해지는 것은 아니라는 것이다. 오히려 GPU 없이 추론을 설계하는 과정은, 모델과 시스템을 보다 깊이 이해하도록 만든다. 어떤 연산이 정말 필요한지, 어떤 단계가 병목이 되는지, 어디까지 단순화할 수..