Question 1

압축은 정말 무손실인가요?

Accepted Answer

예. 복원은 항상 바이트 단위로 완전히 일치하며, bf16/fp16/fp32 가중치 및 fp32 옵티마이저 상태에 대해 유해한 비트 패턴(NaN, +/-Inf, denormal, -0.0)을 대상으로 검증을 마쳤습니다. AMI 빌드 자체가 빌드 GPU 상에서의 압축->압축 해제 라운드 트립이 비트 단위로 일치(bit-exact)하지 않으면 실패하므로, plane reassembly가 깨진 코덱이 고객 이미지에 전달되는 일은 절대 없습니다.

Question 2

얼마나 압축되나요?

Accepted Answer

데이터에 따라 다릅니다. all-bf16 및 저정밀도 옵티마이저 체크포인트는 압축이 잘 되며(규모가 클수록 효과가 큼), 저장 간격이 넓고 fp32 비중이 높은 체크포인트는 압축이 거의 되지 않습니다. 당사는 어떤 경우에 효과가 있는지 솔직하게 공개하며 고정된 압축률을 보장하지 않습니다. 또한 압축은 항상 무손실(lossless)이며, 작은 고정 헤더 크기를 초과하여 블롭을 확장하지 않습니다.

Question 3

체크포인트는 어디에 저장되나요?

Accepted Answer

압축된 체크포인트는 사용자가 설정한 Amazon S3 레지스트리 버킷에 저장되며 계정을 절대 벗어나지 않습니다. 자체 VPC 내부에서 AMI를 실행하면, PyTorch 학습 코드가 s4weights.save / s4weights.load (또는 델타 체인 save_checkpoint / load_checkpoint)로 체크포인트를 작성하며, 각 텐서가 GPU에서 압축되어 비트 단위로 완전히 일치하는 압축 체크포인트 형태로 S3 레지스트리에 저장됩니다.

Question 4

어떤 인스턴스에서 실행되며 요금은 어떻게 부과되나요?

Accepted Answer

g6 또는 g6e GPU 인스턴스에서 실행되며, 번들로 제공되는 CloudFormation 템플릿(deploy/cfn-train-runner.yaml)을 통해 엔드투엔드로 구성됩니다. 요금은 인스턴스 시간당 과금되며 연간 옵션도 있습니다. AWS가 실행 중인 인스턴스 시간을 자동으로 측정하고, 러너는 부팅 시 최초 1회 RegisterUsage를 호출하여 fail-closed 권한 검증을 수행합니다(권한이 없는 인스턴스는 시작되지 않습니다).

Question 5

PyTorch 학습 코드에 쉽게 통합할 수 있나요?

Accepted Answer

드롭인 방식으로 바로 적용 가능합니다. 직관적인 s4weights.save / s4weights.load를 통해 체크포인트를 작성하거나, base->delta 체크포인트 저장소의 경우 save_checkpoint / load_checkpoint를 사용합니다. 각 텐서는 GPU 상에서 압축되며, 빈번한 저장이 발생하는 학습의 경우 연속된 체크포인트 간의 바이트 XOR 델타 역시 저장 및 압축됩니다.

S4 Weights

해결하고자 하는 과제

작동 원리

GPU 상에서 바이트 플레인으로 분할

체크포인트 간 델타 압축

비트 단위 완벽 일치 복원 및 자체 S3에 저장

주요 특징

포함 사항

주요 활용 사례

자주 묻는 질문

요금제 모델

기타 S4 제품

S4 — Squished S3

S4 Logs

S4 Metrics