Question 1

它能 100% 阻止失控的智能体吗？

Accepted Answer

我们坦诚地将这两层区分开来。第一层（Layer 1）硬限制是确定性且抢占式的：任何预留成本超出配置上限的请求都会在转发前被阻止，即对超出上限的请求进行 100% 抢占式阻止（输入状态相同，决策结果相同，已通过 chaos test 验证）。第二层（Layer 2）循环检测是尽力而为的：失控状态只有在几次调用之后才能被发现，而这几次调用已经产生了账单，因此它的作用是控制爆炸半径，将其限制在少量的请求或小额资金内，而不是保证 100% 预防。它随附了 dry-run 阴影模式，因此您可以在强制执行前测量误阻止率。

Question 2

如果事先无法得知输出 token 数量，如何在产生账单前阻止支出？

Accepted Answer

这是通过先预留后对账（reserve-then-reconcile）实现的，而不是简单的估算。在转发前，预留会使用最坏情况下的成本 —— 输入 token 立即计算，输出按 max_tokens 乘以输出费率进行定价 —— 来做出硬限制决策。当响应返回时，提供商报告的使用量将作为唯一事实来源，并与预留进行对账。Token 数量会在不同提供商之间进行标准化，并拆分为输入、输出、缓存读取（cached-read）和缓存写入（cache-write），以便记账能反映每家提供商的真实费率卡。

Question 3

我的提示词保存在哪里，发送到哪里？

Accepted Answer

S4 Firewall 本身不会持久化或传输您的提示词或响应。其唯一的出站调用就是您的应用程序原本就会向提供商发起的请求 —— 防火墙不会增加额外的 egress（出站流量）。账本和指标仅携带 token 数量，不包含内容（counts-not-content，已通过 property test 验证）。提示词流向哪里取决于您选择的上游：通过 VPC 接口端点（AWS PrivateLink，该 AMI 可选择性配置）路由到 Amazon Bedrock 可以将这些调用保留在您的 AWS 边界内；而路由到公共互联网上的第三方提供商，流量则会流出 VPC 并进入互联网。

Question 4

它需要独立的控制平面或数据库吗？

Accepted Answer

不需要。没有独立的控制平面，也没有外部数据库。预算状态在每个实例 of 内存中保存，并在重启时从零重新推导。数据平面是一个运行在加固的 systemd 单元下的单一静态二进制文件，不具备任何提权 capability，并被赋予了最小权限的 IAM 角色（包括上游模型调用、限定于 S4/Firewall 命名空间的 CloudWatch PutMetricData，以及只写到账本存储桶的 PutObject）。没有遥测呼回（telemetry home-call），也没有许可证密钥检查。

Question 5

它是如何计费的，我该如何部署它？

Accepted Answer

计费采用 AMI 按小时计费（按实例小时计量），并提供年约合同选项，运行在 c6g / c7g（Arm）实例上。您可以使用包含的 CloudFormation 模板进行部署 —— 单个实例使用 cfn-single.yaml，内部负载均衡器后的冗余集群使用 cfn-ha.yaml —— 这些模板可以有选择地创建 Bedrock VPC 接口端点。然后，您只需将应用程序的 base_url 指向防火墙即可。

S4 Firewall

面临挑战

工作原理

只需将您的 base_url 指向它

在单个同步流水线中进行归因、预留和决策

双层拦截，然后与实际使用量进行对账

产品亮点

包含内容

适用场景

常见问题

计费模式

其他 S4 产品

S4 — Squished S3

S4 Logs

S4 Metrics