Question 1

圧縮するとリコールは落ちませんか？

Accepted Answer

動作点はお客様が選べます。30k 件のベクトルベンチマークでは、バイナリ Hamming＋float リスコアが recall@10 で 0.976〜1.000 を記録し（OpenSearch 0.995、pgvector 0.996、Qdrant 1.000、Milvus 0.976）、いずれも 32 倍の RAM 削減のもとでの値です。over-fetch を上げるほどリコールが上がるため、目標リコールに合わせて動作点をチューニングします。リコールは over-fetch とともにスケールし、最適点はワークロードごとに異なります。

Question 2

RAM はどれくらい削減できますか？

Accepted Answer

バイナリ量子化により、インメモリの ANN グラフを最大 32 倍小さくできます。加えて int8 残差でオンディスクのベクトルが約 4 倍小さくなります。削減幅はコーパスやストア、選択する動作点によって変わるため、s4embed prove / tune で実データから見積もるのが確実です。

Question 3

どのベクトルストアに対応していますか？

Accepted Answer

パイプラインはストア非依存で、OpenSearch・pgvector・Qdrant・Milvus に対応します。OpenSearch と pgvector のパスは付属の CloudFormation クイックスタートで構築でき、Qdrant と Milvus は既存のエンドポイントを指定するだけで利用できます。s4embed compare を使えば、各ストアのライブ ANN リコールを比較できます。

Question 4

本番に切り替える前に検証できますか？

Accepted Answer

できます。s4embed prove と tune がお客様のベクトルで設定を見積もり、compare が各ストアのライブ ANN リコールを計測します。ゲートウェイの shadow モードは本番リードを二重書き込み・並行比較し、圧縮パスが既存の結果を再現することを切り替え前に確認できます。さらに s4embed drift が埋め込みのドリフトとリコールを監視し、必要に応じて再チューニングを提案します。

Question 5

データはどこに置かれ、どのように課金されますか？

Accepted Answer

S4 Embed は標準の Amazon Linux 2023 AMI として、お客様自身のロードバランサーの背後、お客様自身の VPC 内で動作します。データもベクトルデータベースもアカウント外に出ることはなく、ロックインもありません。課金は使用量ベースで、埋め込みテキスト・インデックス文書・検索クエリの単位で AWS Marketplace Metering Service を通じて毎時報告され、AWS の請求に計上されます。

S4 Embed

課題

仕組み

量子化でベクトルを圧縮

二段階検索でリコールを保持

切替前にデータで検証

特長

含まれるもの

こんな用途に

よくある質問

料金モデル

他のS4製品

S4 — Squished S3

S4 Logs

S4 Metrics