프롬프트 인젝션 방어를 위한 게이트웨이 설계

dohaii040603 2026. 2. 2. 00:00

1. 프롬프트 인젝션은 모델 취약점이 아니라 경계 설계의 실패다

프롬프트 인젝션이라는 개념이 처음 알려졌을 때, 많은 팀은 이를 모델의 문제로 받아들였다. 모델이 너무 순진해서 사용자 입력을 그대로 믿는다거나, 지시를 구분하지 못한다는 식의 해석이 뒤따랐다. 그러나 실제 운영 환경에서 반복적으로 드러난 사실은 조금 다르다. 프롬프트 인젝션 사고의 대부분은 모델이 약해서 발생한 것이 아니라, 모델이 어떤 입력을 받아도 되는지 정의되지 않은 채 외부와 직접 연결되었기 때문에 발생한다.

LLM은 본질적으로 텍스트를 이해하고 따르는 시스템이다. 입력 안에 지시가 섞여 있으면, 그것을 구분해서 거부하는 것이 아니라 “의미 있는 텍스트”로 처리하려 한다. 이는 결함이라기보다 설계 의도에 가깝다. 문제는 이 특성을 고려하지 않은 채, 모델을 사용자 입력의 최전선에 배치하는 구조다. 이 순간, 모델은 보안 경계가 아니라 노출된 실행 엔진이 된다.

전통적인 시스템에서는 사용자 입력이 곧바로 핵심 로직으로 전달되지 않는다. 입력은 반드시 검증, 정규화, 필터링을 거쳐야 하며, 이 과정이 시스템 보안의 핵심을 이룬다. 하지만 많은 LLM 시스템에서는 이 경계가 사라졌다. 사용자의 텍스트가 거의 그대로 프롬프트의 일부가 되고, 시스템 지시와 동일한 레벨에서 모델에게 전달된다. 이 구조에서는 인젝션이 예외가 아니라 자연스러운 결과다.

따라서 프롬프트 인젝션을 막기 위한 출발점은 “모델을 더 똑똑하게 만들자”가 아니다. 그것은 근본적인 해결책이 될 수 없다. 출발점은 모델 앞단에 명확한 경계를 다시 세우는 것, 즉 게이트웨이 설계다. 모델이 받아도 되는 입력과 받아서는 안 되는 입력을 구분하고, 시스템 지시와 사용자 지시를 구조적으로 분리하는 계층이 필요하다. 이 계층이 없으면, 어떤 방어 기법도 임시 처방에 불과하다.

2. 게이트웨이는 필터가 아니라 ‘의미 번역기’다

프롬프트 인젝션 방어를 이야기할 때, 게이트웨이를 단순한 필터로 생각하는 경우가 많다. 특정 키워드를 차단하거나, 위험해 보이는 문장을 제거하는 방식이다. 그러나 이런 접근은 금방 한계에 부딪힌다. 인젝션은 특정 단어가 아니라 의도를 숨긴 문맥에서 발생하기 때문이다. 키워드를 지워도, 구조는 남는다.

효과적인 게이트웨이는 입력을 차단하는 장치가 아니라, 입력의 의미를 재구성하는 번역기에 가깝다. 사용자가 무엇을 요청했는지를 그대로 모델에 전달하는 것이 아니라, 시스템이 허용한 범위 안에서 그 요청을 다시 표현해 모델에게 전달하는 역할을 한다. 이 과정에서 사용자의 입력은 더 이상 “지시”가 아니라 “요청 데이터”로 취급된다.

이 설계에서 중요한 변화는, 시스템 프롬프트와 사용자 입력이 같은 텍스트 공간에 존재하지 않는다는 점이다. 시스템 지시는 게이트웨이 내부에서 이미 결정된 규칙으로 존재하고, 사용자 입력은 그 규칙을 충족시키는 재료로만 사용된다. 즉, 사용자는 모델에게 명령을 내리는 주체가 아니라, 게이트웨이를 통해 요청을 제출하는 존재로 위치가 바뀐다.

이러한 구조를 갖추면, 인젝션의 공격 표면은 급격히 줄어든다. 사용자가 아무리 교묘하게 지시를 섞어 넣어도, 그 지시는 게이트웨이 단계에서 의미가 해석되고 재구성된다. 결과적으로 모델은 “사용자가 이런 지시를 했다”가 아니라, “시스템이 이런 작업을 수행하라고 결정했다”는 맥락에서만 동작한다.

중요한 점은 이 게이트웨이가 단순한 보안 장치가 아니라, 시스템의 핵심 구성 요소가 된다는 것이다. 프롬프트 설계, 모델 선택, 검색 연동 같은 모든 결정이 이 계층을 기준으로 이루어진다. 이때 프롬프트 인젝션은 더 이상 특수한 공격 시나리오가 아니라, 게이트웨이가 정상적으로 작동하는지 점검하는 하나의 테스트 케이스로 전환된다.

3. 방어는 규칙이 아니라 구조에서 나온다

많은 방어 전략이 실패하는 이유는, 그것이 규칙 중심이기 때문이다. “이런 문장은 허용하지 않는다”, “이런 요청은 거부한다”는 식의 규칙은 시간이 지나면서 예외를 낳고, 예외는 다시 규칙을 복잡하게 만든다. 결국 방어 로직은 관리 불가능한 상태로 커진다.

게이트웨이 설계에서 중요한 것은 규칙의 수가 아니라 책임의 분리다. 모델은 텍스트 생성에만 집중하고, 보안과 통제는 게이트웨이가 담당한다. 이 분리가 명확할수록, 인젝션 방어는 단순해진다. 모델에게 “이걸 하면 안 된다”고 말하는 대신, 모델이 그런 선택지를 아예 보지 않도록 만드는 것이다.

이 구조에서는 실패의 형태도 달라진다. 인젝션이 성공했을 때, 문제는 모델이 아니라 게이트웨이의 설계로 귀결된다. 이는 디버깅과 개선을 훨씬 수월하게 만든다. 방어 실패를 모델의 추상적인 “행동”이 아니라, 구체적인 입력 처리 흐름의 문제로 다룰 수 있기 때문이다.

또한 게이트웨이는 로그와 관측의 중심이 된다. 어떤 입력이 어떤 이유로 변환되었는지, 어떤 요청이 거부되었는지, 어떤 패턴이 반복적으로 등장하는지를 명확하게 기록할 수 있다. 이 기록은 단순한 보안 로그를 넘어, 시스템이 어떤 방향으로 악용되려 하는지를 보여주는 중요한 신호가 된다.

이렇게 구조 중심의 방어를 도입하면, 프롬프트 인젝션은 더 이상 “막을 수 없는 문제”가 아니다. 그것은 관리 가능한 리스크로 전환된다. 모든 공격을 완벽히 차단할 수는 없지만, 공격이 성공했을 때의 영향 범위는 극도로 제한할 수 있다. 이 차이가 바로 실험용 시스템과 실제 서비스의 경계를 만든다.

4. 프롬프트 인젝션 방어는 보안이 아니라 운영 성숙도의 문제다

프롬프트 인젝션 방어를 단순한 보안 이슈로만 바라보면, 문제의 절반만 본 것이다. 실제로 이 문제는 운영 성숙도의 지표에 가깝다. 시스템이 얼마나 경계와 책임을 명확히 나누고 있는지, 모델을 어떤 위치에 두고 있는지가 그대로 드러난다.

게이트웨이를 중심으로 한 설계를 채택한 시스템은, 자연스럽게 다른 영역에서도 안정성을 확보한다. 프롬프트 변경, 모델 교체, 검색 구조 수정 같은 작업이 모두 게이트웨이를 기준으로 이루어지기 때문에, 변경의 영향 범위가 예측 가능해진다. 이는 보안뿐 아니라 품질과 비용 관리에도 긍정적인 효과를 낳는다.

반대로 모델을 외부 입력과 직접 연결한 시스템은, 작은 기능 추가 하나에도 리스크가 기하급수적으로 증가한다. 이때 프롬프트 인젝션은 그저 가장 눈에 띄는 증상일 뿐이다. 실제 문제는 경계 없는 설계다.

결국 프롬프트 인젝션 방어를 위한 게이트웨이 설계는, 특정 공격을 막기 위한 기술적 장치가 아니다. 그것은 LLM을 시스템의 어느 위치에 둘 것인가에 대한 선언이다. 모델을 모든 것을 결정하는 두뇌로 둘 것인지, 아니면 제한된 역할을 수행하는 구성 요소로 둘 것인지에 대한 선택이다.

이 선택을 명확히 한 순간, 프롬프트 인젝션은 더 이상 두려운 문제가 아니다. 그것은 설계가 제대로 되었는지를 확인하는 하나의 질문으로 남는다. 그리고 이 질문에 답할 수 있는 시스템만이, 실제 사용자 환경에서 장기적으로 살아남을 수 있다.