Question 1

폭주하는 에이전트를 100% 차단할 수 있나요?

Accepted Answer

당사는 두 레이어를 명확히 구분합니다. Layer 1 하드 캡은 결정론적이고 선제적이며, 예약을 초과하는 요청은 전달 전에 100% 차단됩니다(동일한 상태에서 동일한 결정이 도출되며, chaos test를 통해 입증됨). 반면 Layer 2 루프 감지는 best-effort 방식으로 작동합니다. 폭주는 몇 차례 호출이 발생한 후에만 감지할 수 있으며 그 시점에는 이미 요금이 발생했으므로, 100% 방지를 보장하기보다 피해 범위를 최소한의 요청 수나 금액으로 한정하는 기능입니다. 규제(enforce)를 시작하기 전에 오탐 차단(false-block)율을 측정할 수 있도록 dry-run 섀도 모드를 지원합니다.

Question 2

출력 토큰 수를 미리 알 수 없는데 어떻게 청구 전에 지출을 차단하나요?

Accepted Answer

단순 추정이 아닌 reserve-then-reconcile 방식으로 수행됩니다. 중계 이전 단계에서는 최악의 시나리오 비용(입력 토큰은 바로 계산하고, 출력은 max_tokens * 출력 요율로 가격 산정)을 기반으로 예약을 실행하여 하드 캡을 결정합니다. 응답이 반환되면 프로바이더가 보고한 usage를 source of truth로 사용하여 예약 내역과 reconcile을 진행합니다. 토큰 수는 프로바이더 간에 규격화되며 입력, 출력, cached-read, cache-write로 분류되어 각 공급업체의 실제 요금표에 맞춰 회계 처리됩니다.

Question 3

프롬프트는 어디에 저장되거나 전송되나요?

Accepted Answer

S4 Firewall 자체는 프롬프트나 응답을 저장 또는 전송하지 않습니다. 유일한 아웃바운드 호출은 애플리케이션이 원래 전송했을 프로바이더 요청뿐이며, 방화벽이 불필요한 egress를 유발하지 않습니다. 원장과 메트릭에는 토큰 개수만 반영되며 본문은 포함되지 않습니다(counts-not-content, property test를 통해 검증됨). 프롬프트가 외부로 노출되는 경로는 선택하신 업스트림에 따라 다릅니다. 이 AMI가 프로비저닝할 수 있는 VPC 인터페이스 엔드포인트(PrivateLink)를 통해 Amazon Bedrock으로 연결하면 호출은 AWS 내부 경계에 유지되지만, 퍼블릭 인터넷의 외부 공급업체로 라우팅하는 트래픽은 VPC를 벗어나 인터넷으로 나가게 됩니다.

Question 4

별도의 컨트롤 플레인이나 데이터베이스가 필요한가요?

Accepted Answer

아니요, 필요 없습니다. 별도의 컨트롤 플레인이나 외부 데이터베이스가 존재하지 않습니다. 예산 상태는 인스턴스별로 메모리에 유지되며, 재부팅 시 처음부터 다시 산출됩니다. 데이터 플레인은 향상된 capability가 전혀 없는 보안이 강화된(hardened) systemd 유닛 아래에서 작동하는 단일 정적 바이너리이며, 최소 권한의 IAM 역할(업스트림 모델 호출, S4/Firewall namespace로 제한된 CloudWatch PutMetricData, 원장 버킷으로의 write-only PutObject)만 부여됩니다. 외부로의 텔레메트리 home-call이나 license-key check도 없습니다.

Question 5

요금은 어떻게 청구되며 어떻게 배포하나요?

Accepted Answer

과금은 AMI 시간당 요금(인스턴스 시간 단위 측정)으로 산정되며 연간 계약 옵션이 제공됩니다. c6g / c7g(Arm) 인스턴스에서 작동합니다. 배포 시에는 포함된 CloudFormation 템플릿(단일 인스턴스용 cfn-single.yaml, 내부 로드 밸런서 뒤의 이중화 플릿용 cfn-ha.yaml)을 사용하며, 선택적으로 Bedrock VPC 인터페이스 엔드포인트를 생성할 수도 있습니다. 그 후 애플리케이션의 base_url을 방화벽으로 설정하면 완료됩니다.

S4 Firewall

해결하고자 하는 과제

작동 원리

base_url을 지정하기만 하면 됩니다

하나의 동기식 파이프라인에서 속성 분류, 예약 및 결정 수행

두 개의 레이어로 차단하고 실제 사용량과 대조하여 정산

주요 특징

포함 사항

주요 활용 사례

자주 묻는 질문

요금제 모델

기타 S4 제품

S4 — Squished S3

S4 Logs

S4 Metrics