Todos los productos de AWS Marketplace
S4 Firewall
Seguridad

S4 Firewall

Presupuesto de tokens LLM y control de bucles desbocados

Bloqueo preventivo de límite estricto al 100% Servicio de AWS que reemplaza: Riesgo de gasto ilimitado en tokens de LLM
Obtener en AWS Marketplace

Un proxy de reenvío en la VPC que pone un firewall preventivo de gasto delante de su tráfico LLM. Su app solo cambia su base_url (compatible con OpenAI, compatible con Anthropic Messages o compatible con Bedrock); cada petición pasa por una canalización síncrona attribute → reserve → budget/anomaly → forward → reconcile. Su función principal es el circuit breaker de bucles desbocados: bloquea de forma determinista una petición antes de reenviarla cuando se superaría un presupuesto.

S4 Firewall es un proxy de reenvío que coloca un presupuesto y un circuit breaker delante de su gasto en tokens LLM, con dos capas claramente diferenciadas. La capa 1, el hard cap, es determinista y preventiva: el gasto acumulado se conoce, por lo que cualquier petición cuya reserva empujaría el total en curso por encima de un hard cap configurado se bloquea antes de reenviarse — un bloqueo preventivo del 100% de las peticiones por encima del límite, fijado por chaos tests. La capa 2, el bloqueo de bucles, es best-effort y conductual: detecta bucles de agentes, cadenas de llamadas casi duplicadas y amplificación dentro de la sesión para acotar el radio de impacto. El gasto se atribuye por feature / tenant / customer, y las respuestas streaming pasan chunk a chunk para preservar el time-to-first-token.

El problema

El gasto en tokens de LLM es especialmente propenso a situaciones de descontrol: un bucle de agentes, una cadena de llamadas casi duplicadas o una amplificación dentro de la sesión pueden consumir el presupuesto de un mes antes de que nadie se dé cuenta. Dado que la cantidad de tokens de salida es impredecible hasta que se devuelve la respuesta, si no hay un mecanismo que detenga el gasto antes de que se genere la factura, se verá obligado a reconstruir a posteriori qué funcionalidad, inquilino o cliente disparó el coste. Su gasto acaba reflejando un bucle incontrolado en lugar del trabajo que realmente pretendía.

Cómo funciona

  1. 1

    Basta con apuntar su base_url a él

    S4 Firewall es un proxy de reenvío que ejecuta dentro de su propia Amazon VPC. Su aplicación solo cambia su base_url: el firewall acepta una entrada compatible con OpenAI, Anthropic Messages o Bedrock, y reenvía cada petición al proveedor upstream que ya utiliza. Las respuestas en streaming se transmiten fragmento a fragmento sin almacenamiento en búfer, por lo que se preserva el time-to-first-token.

  2. 2

    Atribuir, reservar y decidir en un solo pipeline síncrono

    Antes de reenviar, cada petición ejecuta un pipeline síncrono de attribute -> reserve -> budget/anomaly -> forward -> reconcile. Atribuye la petición a una funcionalidad, inquilino y cliente, reserva el coste del peor de los casos (los tokens de entrada se cuentan de inmediato, el precio de salida se calcula como max_tokens por la tarifa de salida), verifica la reserva frente a la jerarquía de presupuestos y, finalmente, la reenvía o la bloquea.

  3. 3

    Dos capas lo detienen y luego concilian con el uso real

    La Capa 1, el límite estricto (hard cap), es determinista y preventiva: cualquier petición cuya reserva supere un límite configurado se bloquea antes del reenvío (un bloqueo preventivo del 100% de las peticiones por encima del límite; la misma entrada de estado produce la misma decisión de salida, confirmado mediante chaos tests). La Capa 2, el bloqueo de bucles (loop block), es de tipo best-effort y basada en comportamiento: detecta bucles de agentes, cadenas de llamadas casi duplicadas y la amplificación dentro de la sesión para limitar el radio de impacto. Cuando se devuelve la respuesta, el uso reportado por el proveedor se toma como la fuente de verdad y se concilia con la reserva.

Características destacadas

Hard cap determinista: bloquea una petición por encima del presupuesto antes de reenviarla (jerarquía de presupuesto tenant / feature / customer).

Circuit breaker para bucles descontrolados: detecta bucles de agentes y cadenas de llamadas casi duplicadas para contener el radio de impacto.

Drop-in: base_url compatible con OpenAI / Anthropic / Bedrock, passthrough de streaming (TTFT preservado), se ejecuta en tu propia VPC.

Qué incluye

  • AMI arm64 basada en Amazon Linux 2023 (se ejecuta en instancias c6g / c7g Graviton, facturada por hora de instancia)
  • Proxy de reenvío con entrada compatible con OpenAI, Anthropic Messages y Bedrock (las aplicaciones solo cambian su base_url; el streaming pasa fragmento a fragmento, preservando el TTFT)
  • Límite estricto (hard cap) de Capa 1 — un disyuntor determinista y preventivo que bloquea cualquier petición que supere el presupuesto antes del reenvío (bloqueo preventivo del 100% de las peticiones que superan el límite, confirmado mediante chaos tests)
  • Bloqueo de bucles (loop block) de Capa 2 — una capa basada en comportamiento y de tipo best-effort que detecta bucles de agentes, cadenas de llamadas casi duplicadas y amplificación dentro de la sesión para limitar el radio de impacto (no es una garantía del 100%; incluye un modo sombra de tipo dry-run)
  • Contabilidad de tokens mediante reserva y conciliación (reserve-then-reconcile) — la reserva utiliza el peor de los casos (los tokens de entrada se contabilizan de inmediato, la salida se valora según max_tokens por la tarifa de salida) y luego se concilia con el uso reportado por el proveedor como fuente de verdad
  • Atribución del gasto de tokens por funcionalidad/inquilino/cliente, enviada a Amazon CloudWatch (namespace S4/Firewall) y un registro de auditoría opcional que solo guarda cantidades (nunca los cuerpos de los prompts ni de las respuestas)
  • Plantillas de CloudFormation de un solo clic (cfn-single.yaml para una sola instancia, cfn-ha.yaml para una flota redundante detrás de un balanceador de carga interno), con un rol de IAM con privilegios mínimos y sin base de datos ni plano de control independientes

Casos de uso

Detener un agente fuera de control con un límite estricto (hard cap) determinista antes de que consuma el presupuesto del mes

Equipos que necesitan atribuir el gasto de tokens por funcionalidad, inquilino o cliente —con una granularidad más fina que la de un principal de IAM— y asignar los presupuestos en consecuencia

Gobernar el tráfico de LLM sin entregar los prompts ni los cuerpos de las respuestas a un tercero — un registro que guarda los recuentos de tokens, no el contenido

Establecer un único presupuesto dentro de la VPC para el tráfico compatible con OpenAI, Anthropic y Bedrock apuntando la base_url de la aplicación al proxy

Preguntas frecuentes

¿Puede detener un agente fuera de control el 100% de las veces?

Mantenemos las dos capas claramente diferenciadas. La Capa 1, el límite estricto (hard cap), es determinista y preventiva: cualquier petición cuya reserva supere un límite configurado se bloquea antes de su reenvío, un bloqueo preventivo del 100% de las peticiones que superan el límite (el mismo estado de entrada produce la misma decisión de salida, confirmado por chaos tests). La Capa 2, la detección de bucles, es de tipo best-effort: un comportamiento fuera de control solo se puede conocer tras unas cuantas llamadas, y esas llamadas ya se habrán facturado, por lo que limita el radio de impacto a un número pequeño de peticiones o a una cantidad pequeña de dinero, en lugar de garantizar una prevención del 100%. Se incluye con un modo sombra de tipo dry-run para que pueda medir la tasa de falsos bloqueos antes de aplicarlo.

Si los tokens de salida no se conocen de antemano, ¿cómo se detiene el gasto antes de que llegue la factura?

Se basa en el principio de reserva y conciliación (reserve-then-reconcile), no en una estimación plana. Antes de reenviar, la reserva utiliza el peor de los casos (los tokens de entrada se cuentan ahora, la salida se tarifa como max_tokens por la tasa de salida) para tomar la decisión del límite estricto (hard cap). Al devolverse la respuesta, el uso reportado por el proveedor se toma como fuente de verdad y se concilia con la reserva. Los recuentos de tokens se normalizan entre los diferentes proveedores y se dividen en entrada, salida, cached-read y cache-write, de modo que la contabilidad refleje la lista de tarifas reales de cada proveedor.

¿Dónde se almacenan o se envían mis prompts?

S4 Firewall por sí mismo no almacena ni transmite sus prompts ni sus respuestas. Su única llamada saliente es la solicitud al proveedor que su aplicación habría hecho de todos modos; el firewall no añade ningún egress adicional. El registro de auditoría y las métricas reflejan recuentos de tokens, no contenido (counts-not-content, confirmado mediante property tests). El destino de salida de los prompts depende del upstream que elija: el enrutamiento a Amazon Bedrock mediante un VPC interface endpoint (PrivateLink, que esta AMI puede aprovisionar) mantiene las llamadas dentro del límite de AWS, mientras que el enrutamiento a un proveedor externo en la internet pública envía el tráfico a internet y no se queda dentro de su VPC.

¿Necesita una base de datos o un plano de control independientes?

No. No requiere un plano de control independiente ni una base de datos externa. El estado del presupuesto se guarda en memoria por instancia y se calcula de nuevo desde cero tras un reinicio. El plano de datos es un único binario estático que se ejecuta en una unidad systemd securizada sin ningún privilegio elevado y con un rol de IAM con privilegios mínimos (invocación de modelos upstream, CloudWatch PutMetricData limitado al namespace S4/Firewall y PutObject de solo escritura en el bucket del registro). No realiza llamadas de telemetría (home-call) ni comprobaciones de clave de licencia.

¿Cómo se factura y cómo se despliega?

La facturación es por horas de AMI (con tarifa por hora de instancia) y cuenta con opción de contrato anual, ejecutándose sobre instancias c6g / c7g (Arm). Se despliega con las plantillas de CloudFormation incluidas (cfn-single.yaml para una única instancia y cfn-ha.yaml para una flota redundante detrás de un balanceador de carga interno), que opcionalmente crean el VPC interface endpoint de Bedrock. Luego, solo tiene que dirigir la base_url de su aplicación hacia el firewall.

Modelo de precios

Tarifa horaria de software + EC2 (clase c6g, Arm). Medición por tipo de instancia.

Obtener en AWS Marketplace