AI & GPU

S4 Embed

Vector-search FinOps gateway

ANN RAM 缩小高达 32× 替换的 AWS 服务: Vector-search RAM / instance 成本

一个 FinOps layer，可在保持 recall 达标的同时降低现有 vector database 成本。它对 embeddings 做量化（binary + int8），并在 OpenSearch、pgvector、Qdrant 或 Milvus 前执行两阶段 search（1-bit Hamming coarse stage + exact rescore），将内存中的 ANN graph 最多缩小 32×。以 Amazon Linux 2023 AMI 形式运行在你自己的 VPC 中，按使用量计费（embedded texts、indexed documents、served searches）。

S4 Embed 帮助你找到并运行满足 recall target 的低成本 vector-search 配置。在 30k-vector benchmark 上，binary Hamming + float rescore 达到 recall@10 0.976–1.000，具体取决于 store 和 over-fetch — 你可以选择 operating point。FinOps 工具就是产品本体：s4embed prove（估算 recall/cost/latency frontier）、compare（跨 store 测量 live recall）、tune（生成满足 recall + latency + RAM budget 的可部署 config）、gateway shadow mode（dual-write 并 shadow-compare 后再 cutover）以及 drift（监控 embedding drift）。跨 OpenSearch、pgvector、Qdrant 和 Milvus 的 store-agnostic 支持。

面临挑战

向量搜索将其 ANN 图保留在 RAM 中，因此随着语料库的增长，向量数据库的内存占用 — 以及成本 — 也随之增加，且该项支出难以预测。您不想为了省钱而牺牲召回率，这让您在成本与质量之间陷入两难。而在正式部署到生产环境之前，通常很难找出在 OpenSearch、pgvector、Qdrant 或 Milvus 中，哪种存储和配置最具成本效益。

工作原理

1
量化嵌入

S4 Embed 将您的嵌入量化为二进制（使内存中的 ANN 图缩小高达 32x）和 int8 残差（使磁盘上的向量缩小约 4x），从而减少向量数据库需要占用的 RAM。
2
双阶段搜索以保持召回率

1 比特 Hamming 粗筛阶段构建一个简短的候选列表，接着通过精确的二次评分对其进行重排。通过调整 over-fetch 和二次评分的工作点，您可以在确保达到目标召回率的同时降低 RAM 占用。
3
在切换前用数据进行验证

s4embed prove、compare 和 tune 会测量您自身向量的召回率/成本/延迟前沿，并输出可部署的配置。网关的 shadow 模式会双写并影子比对实时读取，使您能够在切换之前观察压缩路径是否能成功重现主路径。

产品亮点

Binary quantization 将内存中的 ANN graph 最多缩小 32×；在 30k-vector benchmark 上 recall@10 为 0.976–1.000（取决于 store / over-fetch）— 按你的 recall target 选择 operating point。

Store-agnostic（OpenSearch / pgvector / Qdrant / Milvus）；shadow mode 在任何 cutover 前用 primary 验证压缩路径。

FinOps CLI — prove / compare / tune / drift — 测量 cost、recall 和 latency，并输出可部署 config。

包含内容

Amazon Linux 2023 AMI (x86_64) — 运行在您自己 VPC 内、负载均衡器背后的向量搜索 FinOps 网关
Binary + int8 量子化与两阶段搜索流水线（1-bit Hamming 粗筛阶段加精确重排），将内存中 ANN 图缩减高达 32x
与存储无关的流水线 — 支持 OpenSearch、pgvector、Qdrant 和 Milvus，无锁定
FinOps CLI — s4embed prove（估算召回率/成本/延迟前沿）、compare（测量各存储中的实时 ANN 召回率）、tune（输出满足召回率 + 延迟 + RAM 预算的配置）以及 drift（监控嵌入漂移和召回率并建议重新调优）
网关的 shadow 模式 — 对实时读取进行双写和 shadow 比较，以便在切换前确认压缩路径能够复现主路径的结果
CloudFormation 快速入门 — 自动配置 OpenSearch 和 pgvector 路径（Qdrant 和 Milvus 通过将网关指向您的现有端点进行连接）
运维功能 — API 密钥认证（配置后）、请求大小 and 并发限制、在计费或存储出现问题时 fail-closed 的 readiness 探针、Prometheus 指标，以及按使用量计费（按嵌入的文本、索引的文档和提供的搜索服务计费）

适用场景

随着语料库的增长，向量数据库 RAM 成本随之增加的大规模搜索和 RAG 工作负载

希望在保持召回率目标的同时降低向量搜索成本的团队

在切换到生产环境之前，评估 OpenSearch、pgvector、Qdrant 和 Milvus 中哪种存储和配置最具有成本效益

在将数据和向量数据库保留在自己账户内的同时，以按使用量计费的方式运行向量搜索

常见问题

压缩会损害召回率吗？

工作点由您决定。在 30k 向量的基准测试中，binary Hamming + float 重排在 recall@10 上达到了 0.976 到 1.000（OpenSearch 0.995、pgvector 0.996、Qdrant 1.000、Milvus 0.976）—— 且均是在 RAM 减少 32x 的情况下实现的。召回率随 over-fetch 增加而提高，因此您可以根据召回率目标调整工作点。召回率随 over-fetch 变化，最佳点因工作负载而异。

可以节省多少 RAM？

二进制量子化可使内存中的 ANN 图缩小高达 32x，而 int8 残差可使磁盘上的向量缩小约 4x。具体缩减量取决于您的语料库、所选存储和工作点，因此最可靠的评估方式是使用 s4embed prove 和 tune 对您自己的数据进行估算。

支持哪些向量存储？

该流水线与存储无关，支持 OpenSearch、pgvector、Qdrant 和 Milvus。OpenSearch 和 pgvector 路径可通过捆绑的 CloudFormation 快速入门进行配置，而 Qdrant 和 Milvus 只需将网关指向您现有的端点即可工作。s4embed compare 可让您测量各存储的实时 ANN 召回率。

在切换到生产环境之前可以进行验证吗？

可以。s4embed prove 和 tune 会在您自己的向量上估算配置，compare 会测量各存储中的实时 ANN 召回率。网关的 shadow 模式会对实时读取进行双写和 shadow 比较，以便您在切换前确认压缩路径能复现主路径的结果，随后 s4embed drift 会监控嵌入漂移和召回率并建议重新调优。

我的数据保存在哪里？如何计费？

S4 Embed 作为标准的 Amazon Linux 2023 AMI 运行在您自己的负载均衡器后、您自己的 VPC 内。您的数据和向量数据库永远不会离开您的账户，且没有锁定。计费基于使用量并通过您的 AWS 账单进行结算 —— 按嵌入的文本、索引的文档和服务的搜索计费 —— 每小时通过 AWS Marketplace Metering Service 报告。