1. 모델이 멈추는 순간: 인프라는 살아 있는데 추론은 죽어 있다온프레미스 환경에서 LLM을 운영할 때 가장 처음 마주치는 장애는 의외로 단순해 보이는 상황에서 시작된다. 서버는 켜져 있고, 네트워크도 정상이며, 모니터링 대시보드에는 특별한 경고가 없다. 그런데도 모델은 응답하지 않거나, 응답 시간이 비정상적으로 길어진다. 이때 운영자는 흔히 “일시적인 부하 문제”라고 판단하고 상황을 지켜본다. 그러나 이런 판단이 반복될수록 장애는 구조적인 문제로 굳어진다.온프레미스 LLM에서 가장 흔한 장애 시나리오 중 하나는 리소스는 존재하지만 추론 파이프라인이 정상적으로 연결되지 않은 상태다. GPU 메모리는 충분히 남아 있지만, 특정 프로세스가 메모리를 반환하지 않거나, 이전 추론 세션이 비정상 종료된 채 자원을..