Alle AWS Marketplace-Produkte
S4 Firewall
Security

S4 Firewall

LLM-Token-Budget & Runaway-Loop-Kontrolle

100% präventive Hard-Cap-Sperre Ersetzter AWS-Dienst: Unbegrenztes Risiko bei LLM-Token-Ausgaben
Im AWS Marketplace erwerben

Ein Forwarding Proxy in der VPC, der eine präemptive Spend Firewall vor Ihren LLM-Traffic setzt. Ihre App ändert nur ihre base_url (OpenAI-kompatibel, Anthropic Messages-kompatibel oder Bedrock-kompatibel); jeder Request durchläuft synchron die Pipeline attribute → reserve → budget/anomaly → forward → reconcile. Die Hauptaufgabe ist der Runaway-Loop-Circuit-Breaker: Er blockiert einen Request deterministisch, bevor er weitergeleitet wird, sobald ein Budget überschritten würde.

S4 Firewall ist ein Forwarding Proxy, der Budget und Circuit Breaker vor Ihre LLM-Token-Ausgaben setzt, mit zwei ehrlich getrennten Schichten. Layer 1, der Hard Cap, ist deterministisch und präemptiv: Der kumulierte Spend ist bekannt, daher wird jeder Request, dessen Reservation die laufende Summe über einen konfigurierten Hard Cap treiben würde, vor der Weiterleitung blockiert — ein 100% präemptiver Block von Over-Cap-Requests, durch Chaos-Tests fixiert. Layer 2, der Loop Block, ist best-effort und verhaltensbasiert: Er erkennt Agent-Loops, nahezu doppelte Call Chains und In-Session-Amplification, um den Blast Radius zu begrenzen. Spend wird pro Feature / Tenant / Customer zugeordnet, und Streaming Responses werden Chunk für Chunk durchgereicht, sodass Time-to-First-Token erhalten bleibt.

Das Problem

LLM-Token-Ausgaben sind besonders anfällig für unkontrollierte Ausreißer: Ein Agent-Loop, eine Kette von nahezu identischen Aufrufen oder eine In-Session-Verstärkung können das Budget eines ganzen Monats aufzehren, bevor es jemand bemerkt. Da die Anzahl der Output-Token bis zur Rückgabe der Antwort unvorhersehbar ist, müssen Sie ohne einen Mechanismus, der die Ausgaben vor Entstehung der Kosten stoppt, im Nachhinein mühsam rekonstruieren, welches Feature, welcher Tenant oder welcher Kunde die Kosten in die Höhe getrieben hat. Ihre Ausgaben folgen einer unkontrollierten Schleife statt der Arbeit, die Sie eigentlich beabsichtigt haben.

Funktionsweise

  1. 1

    Richten Sie einfach Ihre base_url darauf aus

    S4 Firewall ist ein Forwarding-Proxy, den Sie in Ihrer eigenen Amazon VPC betreiben. Ihre Anwendung ändert nur ihre base_url: Die Firewall akzeptiert einen OpenAI-kompatiblen, Anthropic Messages-kompatiblen oder Bedrock-kompatiblen Intake und leitet jede Anfrage an den Upstream-Provider weiter, den Sie bereits nutzen. Streaming-Antworten werden ohne Pufferung Chunk für Chunk durchgelassen, sodass die Time-to-First-Token erhalten bleibt.

  2. 2

    Zuordnen, reservieren und entscheiden in einer synchronen Pipeline

    Vor der Weiterleitung durchläuft jede Anfrage eine synchrone attribute -> reserve -> budget/anomaly -> forward -> reconcile-Pipeline. Sie ordnet die Anfrage einem Feature, Tenant und Kunden zu, reserviert die Worst-Case-Kosten (Input-Token werden sofort gezählt, der Output wird mit max_tokens mal der Output-Rate berechnet), prüft die Reservierung gegen die Budgethierarchie und leitet sie entweder weiter oder blockiert sie.

  3. 3

    Zwei Layer stoppen es, danach erfolgt der Abgleich mit der tatsächlichen Nutzung

    Layer 1, das Hard Cap, ist deterministisch und präemptiv: Jede Anfrage, deren Reservierung ein konfiguriertes Limit überschreiten würde, wird vor der Weiterleitung blockiert (eine 100% präemptive Blockierung von Anfragen über dem Limit, bei der derselbe Zustand zur selben Entscheidung führt, validiert durch Chaos-Tests). Layer 2, der Loop Block, ist Best-Effort und verhaltensbasiert: Er erkennt Agent-Loops, nahezu identische Aufrufketten sowie In-Session-Verstärkungen, um den Schadensradius zu begrenzen. Wenn die Antwort zurückgegeben wird, wird die vom Provider gemeldete Nutzung als Source of Truth herangezogen und mit der Reservierung abgeglichen.

Highlights

Deterministischer Hard Cap: blockiert einen Over-Budget-Request, bevor er weitergeleitet wird (Tenant- / Feature- / Customer-Budgethierarchie).

Circuit Breaker für Runaway-Loops: erkennt Agent-Loops und nahezu doppelte Call-Chains, um den Blast Radius zu begrenzen.

Drop-in: OpenAI / Anthropic / Bedrock-kompatible base_url, Streaming-Passthrough (TTFT bleibt erhalten), läuft in Ihrer eigenen VPC.

Lieferumfang

  • Amazon Linux 2023 arm64 AMI (läuft auf c6g / c7g Graviton-Instanzen, abgerechnet pro Instanzstunde)
  • Forwarding-Proxy mit OpenAI-kompatiblem, Anthropic Messages-kompatiblem und Bedrock-kompatiblem Intake (Anwendungen ändern nur ihre base_url; Streaming wird Chunk für Chunk durchgelassen, wodurch die TTFT erhalten bleibt)
  • Layer 1 Hard Cap — ein deterministischer, präemptiver Circuit Breaker, der jede das Budget überschreitende Anfrage vor der Weiterleitung blockiert (100% präemptive Blockierung von Anfragen über dem Limit, validiert durch Chaos-Tests)
  • Layer 2 Loop Block — ein verhaltensbasierter Best-Effort-Layer, der Agent-Loops, nahezu identische Aufrufketten und In-Session-Verstärkungen erkennt, um den Schadensradius zu begrenzen (keine 100% Garantie; wird mit einem Dry-Run-Shadow-Mode ausgeliefert)
  • Reserve-then-Reconcile-Token-Accounting — die Reservierung nutzt den Worst Case (Input wird sofort gezählt, Output wird mit max_tokens mal der Output-Rate berechnet) und gleicht dies anschließend mit der gemeldeten Nutzung des Providers als Source of Truth ab
  • Token-Spend-Attribuierung pro Feature/Tenant/Kunde, ausgegeben an Amazon CloudWatch (Namespace S4/Firewall) und ein optionales, counts-only Audit-Ledger (niemals Prompts oder Response-Bodys)
  • One-Click-CloudFormation-Templates (cfn-single.yaml für eine einzelne Instanz, cfn-ha.yaml für eine redundante Fleet hinter einem internen Load Balancer) mit einer Least-Privilege-IAM-Rolle und ohne separate Control Plane oder separate Datenbank

Anwendungsfälle

Stoppen eines Runaway-Agenten mit einem deterministischen Hard Cap, bevor er das Monatsbudget aufzehrt

Teams, die Token-Ausgaben pro Feature, Tenant oder Kunde zuordnen müssen — feiner als die Granularität von IAM-Principals — und Budgets entsprechend zuweisen

Steuerung des LLM-Traffics, ohne Prompts oder Response-Bodys an Dritte weiterzugeben — ein Ledger, das Token-Mengen erfasst, nicht den Inhalt

Vorschalten eines einzigen In-VPC-Budgets vor OpenAI-, Anthropic- und Bedrock-kompatiblen Traffic, indem die base_url der App auf den Proxy gerichtet wird

FAQ

Kann es einen Runaway-Agenten jederzeit zu 100% stoppen?

Wir halten zwei Layer ehrlich getrennt. Layer 1, das Hard Cap, ist deterministisch und präemptiv: Jede Anfrage, deren Reservierung ein konfiguriertes Limit überschreiten würde, wird vor der Weiterleitung blockiert — eine 100% präemptive Blockierung von Anfragen über dem Limit (derselbe Zustand rein, dieselbe Entscheidung raus, validiert durch Chaos-Tests). Layer 2, die Loop-Erkennung, ist Best-Effort: Ein Runaway ist erst nach einigen Aufrufen erkennbar, und diese wenigen sind bereits abgerechnet. Daher wird der Schadensradius auf eine geringe Anzahl von Anfragen oder einen kleinen Dollarbetrag begrenzt, anstatt eine 100%ige Vermeidung zu garantieren. Es wird mit einem Dry-Run-Shadow-Mode ausgeliefert, sodass Sie die False-Block-Rate messen können, bevor Sie das Limit erzwingen.

Wenn Output-Token im Voraus nicht bekannt sind, wie stoppt es dann die Ausgaben vor der Abrechnung?

Es funktioniert nach dem Prinzip Reserve-then-Reconcile, nicht über eine pauschale Schätzung. Vor der Weiterleitung nutzt die Reservierung den Worst Case — Input-Token werden sofort gezählt, der Output wird mit max_tokens mal der Output-Rate berechnet —, um die Hard-Cap-Entscheidung zu treffen. Wenn die Antwort zurückgegeben wird, gilt die gemeldete Nutzung des Providers als Source of Truth und wird mit der Reservierung abgeglichen. Die Token-Zahlen werden über verschiedene Provider hinweg normalisiert und in Input, Output, Cached-Read und Cache-Write aufgeteilt, sodass die Abrechnung die tatsächliche Preisliste des jeweiligen Providers widerspiegelt.

Wo werden meine Prompts gespeichert oder wohin gesendet?

S4 Firewall selbst speichert oder überträgt Ihre Prompts oder Antworten nicht. Der einzige ausgehende Aufruf ist die Provider-Anfrage, die Ihre Anwendung ohnehin gestellt hätte — die Firewall fügt keinen zusätzlichen Egress hinzu. Das Ledger und die Metriken enthalten Token-Anzahlen, keine Inhalte (counts-not-content, validiert durch Property-Tests). Wohin die Prompts gesendet werden, hängt vom gewählten Upstream ab: Das Routing an Amazon Bedrock über einen VPC-Interface-Endpoint (PrivateLink, den dieses AMI optional bereitstellen kann) hält diese Aufrufe innerhalb Ihrer AWS-Grenzen, während das Routing an einen Drittanbieter im öffentlichen Internet Traffic ins Internet leitet und dieser nicht in Ihrer VPC verbleibt.

Benötigt es eine separate Control Plane oder eine separate Datenbank?

Nein. Es gibt weder eine separate Control Plane noch eine externe Datenbank. Der Budgetstatus wird pro Instanz in-memory gehalten und bei einem Neustart von Grund auf neu hergeleitet. Die Data Plane ist ein einzelnes statisches Binary, das unter einer gehärteten systemd-Unit ohne jegliche erweiterte Berechtigungen läuft, ausgestattet mit einer Least-Privilege-IAM-Rolle (Upstream-Modellaufruf, CloudWatch PutMetricData beschränkt auf den Namespace S4/Firewall und write-only PutObject auf den Ledger-Bucket). Es gibt keinen Telemetrie-Home-Call und keine Lizenzschlüsselprüfung.

Wie wird es abgerechnet und wie stelle ich es bereit?

Die Abrechnung erfolgt stündlich über das AMI (abgerechnet pro Instanzstunde) mit einer jährlichen Vertragsoption, ausgeführt auf c6g / c7g (Arm) Instanzen. Die Bereitstellung erfolgt über die mitgelieferten CloudFormation-Templates — cfn-single.yaml für eine einzelne Instanz, cfn-ha.yaml für eine redundante Fleet hinter einem internen Load Balancer —, die optional den Bedrock VPC-Interface-Endpoint erstellen. Danach richten Sie einfach die base_url Ihrer Anwendung auf die Firewall.

Preismodell

Stündliche Softwaregebühr + EC2 (c6g-Klasse, Arm). Abrechnung pro Instance-Typ.

Im AWS Marketplace erwerben