Question 1

압축하면 재현율이 떨어지지 않나요?

Accepted Answer

동작 지점은 사용자가 선택할 수 있습니다. 30k 벡터 벤치마크에서 binary Hamming + float rescore는 recall@10 기준 0.976에서 1.000에 도달했습니다(OpenSearch 0.995, pgvector 0.996, Qdrant 1.000, Milvus 0.976). 이는 모두 32배 RAM 절감 상태에서 얻은 결과입니다. over-fetch가 늘어남에 따라 재현율도 올라가므로 목표 재현율에 맞춰 동작 지점을 튜닝할 수 있습니다. 재현율은 over-fetch에 따라 확장되며, 최적의 동작 지점은 워크로드별로 결정됩니다.

Question 2

RAM은 얼마나 절약되나요?

Accepted Answer

Binary 양자화를 통해 RAM 내 ANN 그래프를 최대 32배까지 축소할 수 있으며, int8 residual을 사용하면 온디스크(on-disk) 벡터를 약 4배가량 줄일 수 있습니다. 정확한 감소 폭은 코퍼스, 스토어 및 선택한 동작 지점에 따라 달라지므로, s4embed prove 및 tune을 사용해 실제 데이터에서 직접 측정해보는 것이 가장 확실합니다.

Question 3

어떤 벡터 스토어를 지원하나요?

Accepted Answer

파이프ライン은 OpenSearch, pgvector, Qdrant, Milvus 전반에 걸쳐 스토어 독립적(store-agnostic)입니다. OpenSearch 및 pgvector 경로는 번들로 제공되는 CloudFormation quick-start를 통해 프로비저닝할 수 있으며, Qdrant와 Milvus는 게이트웨이가 기존 엔드포인트를 가리키도록 지정하여 연동할 수 있습니다. s4embed compare를 사용하면 여러 스토어의 실시간 ANN 재현율을 측정할 수 있습니다.

Question 4

운영 환경으로 전환하기 전에 검증할 수 있나요?

Accepted Answer

네, 가능합니다. s4embed prove 및 tune을 통해 실제 벡터 데이터 기반으로 설정을 추정하고, compare로 각 스토어의 실시간 ANN 재현율을 측정합니다. 게이트웨이 shadow 모드는 실시간 읽기를 이중 쓰기 및 shadow 비교하므로, 전환 전에 압축 경로가 기존 primary 결과를 재현하는지 직접 확인할 수 있습니다. 이후 s4embed drift가 임베딩 드리프트와 재현율을 모니터링하여 재튜닝을 제안합니다.

Question 5

데이터는 어디에 저장되며 요금은 어떻게 청구되나요?

Accepted Answer

S4 Embed는 자체 VPC 내부에서 고객 본인의 로드 밸런서 뒤에 표준 Amazon Linux 2023 AMI로 실행됩니다. 데이터와 벡터 데이터베이스는 고객의 계정을 벗어나지 않으며 락인도 없습니다. 요금은 사용량 기준으로 청구되며, 임베딩된 텍스트, 인덱싱된 문서, 처리된 검색 건수 단위로 측정되어 AWS Marketplace Metering Service를 통해 매시간 보고되고 AWS 청구서에 반영됩니다.

S4 Embed

해결하고자 하는 과제

작동 원리

임베딩 양자화

recall 유지를 위한 2단계 검색

전환 전에 데이터로 검증

주요 특징

포함 사항

주요 활용 사례

자주 묻는 질문

요금제 모델

기타 S4 제품

S4 — Squished S3

S4 Logs

S4 Metrics