Question 1

Peut-il arrêter un agent en fuite dans 100 % des cas ?

Accepted Answer

Nous gardons les deux couches honnêtement distinctes. La Layer 1, le hard cap, est déterministe et préemptive : toute requête dont la réservation dépasserait un plafond configuré est bloquée avant le transfert, soit un blocage 100 % préemptif des requêtes hors limite (même état en entrée, même décision en sortie, validé par des chaos tests). La Layer 2, la détection de boucle, est de type best-effort : un emballement n'est détectable qu'après quelques appels, et ces quelques appels sont déjà facturés, elle limite donc le blast radius à un petit nombre de requêtes ou à un faible montant en dollars plutôt que de garantir une prévention à 100 %. Elle est livrée avec un mode shadow dry-run pour vous permettre de mesurer le taux de faux blocages avant l'application des règles.

Question 2

Si les tokens de sortie sont inconnus à l'avance, comment les dépenses sont-elles arrêtées avant la facturation ?

Accepted Answer

Il s'agit d'un mécanisme de type reserve-then-reconcile, et non d'une estimation forfaitaire. Avant le transfert, la réservation utilise le pire des cas — les tokens d'entrée étant comptabilisés immédiatement, et la sortie tarifée à max_tokens fois le tarif de sortie — pour prendre la décision de type hard-cap. Lorsque la réponse est renvoyée, l'utilisation signalée par le fournisseur est prise comme source de vérité et réconciliée avec la réservation. Le nombre de tokens est normalisé entre les fournisseurs et réparti en entrée, sortie, cached-read et cache-write, de sorte que la comptabilité reflète la grille tarifaire réelle de chaque fournisseur.

Question 3

Où mes prompts sont-ils stockés ou envoyés ?

Accepted Answer

S4 Firewall lui-même ne conserve ni ne transmet vos prompts ou vos réponses. Son seul appel sortant est la requête vers le fournisseur que votre application aurait passée de toute façon — le pare-feu n'ajoute aucun trafic sortant (egress). Le registre et les métriques contiennent le nombre de tokens, pas le contenu (counts-not-content, validé par des property tests). La destination des prompts dépend du fournisseur amont choisi : le routage vers Amazon Bedrock via un VPC interface endpoint (PrivateLink, que cette AMI peut provisionner) maintient ces appels à l'intérieur de votre frontière AWS, tandis que le routage vers un fournisseur tiers sur l'internet public sort vers internet et ne reste pas dans votre VPC.

Question 4

Nécessite-t-il un control plane ou une base de données séparés ?

Accepted Answer

Non. Il n'y a pas de control plane séparé ni de base de données externe. L'état du budget est conservé en mémoire par instance et recalculé à partir de zéro au redémarrage. Le data plane est un binaire statique unique fonctionnant sous une unité systemd sécurisée sans privilèges élevés et doté d'un rôle IAM de moindre privilège (vocation de modèle amont, CloudWatch PutMetricData restreint au namespace S4/Firewall, et PutObject en écriture seule sur le bucket du registre). Il n'y a aucun appel télémétrique vers l'extérieur (home-call) ni de vérification de clé de licence.

Question 5

Comment est-il facturé et comment le déployer ?

Accepted Answer

La facturation se fait au tarif horaire de l'AMI (mesurée par heure d'instance) avec une option de contrat annuel, le tout fonctionnant sur des instances c6g / c7g (Arm). Vous effectuez le déploiement à l'aide des modèles CloudFormation fournis — cfn-single.yaml pour une instance unique, cfn-ha.yaml pour une flotte redondante derrière un load balancer interne — qui peuvent également créer le VPC interface endpoint de Bedrock. Ensuite, il vous suffit de diriger le base_url de votre application vers le pare-feu.

S4 Firewall

Le problème

Fonctionnement

Pointez simplement votre base_url vers lui

Attribuer, réserver et décider dans un seul pipeline synchrone

Deux couches d'arrêt, puis réconciliation avec l'utilisation réelle

Points forts

Ce qui est inclus

Cas d'usage

FAQ

Modèle de tarification

Autres produits S4

S4 — Squished S3

S4 Logs

S4 Metrics