보안

S4 LogForge

현실적인 SIEM 테스트 로그 생성기

파서 호환 13가지 포맷 대체 대상 AWS 서비스: SIEM 테스트용 수작업 데이터

13개 format의 현실적이고 parser-faithful한 security log를 원하는 rate로 생성합니다 — 30일치를 몇 초 안에 backfill하거나 realtime으로 stream할 수 있습니다. SIEM PoC, detection-rule 개발, dashboard, capacity sizing, load testing용으로 설계되었습니다. MITRE ATT&CK 태그가 붙은 상관 공격 시나리오와 deterministic, reproducible output을 제공합니다.

S4 LogForge는 실제 장비와 SIEM schema에 field-faithful한 security log를 생성합니다 — production log를 사용할 수 없지만 SIEM 프로젝트에 production-like 데이터가 필요한 경우를 위해 설계되었습니다. 13개 output format은 각각 실제 parser(Elasticsearch ingest pipeline, Elastic integration, Logstash grok / kv / xml / CEF codec)에 대해 end-to-end로 검증되었습니다: RFC 3164/5424 syslog; CEF(ArcSight-style); LEEF 2.0(QRadar-style); PAN-OS 10.2 CSV; ECS 8.11 JSON; XDR telemetry JSON; Windows Event/Winlogbeat; CloudTrail; VPC Flow; Zeek; Suricata.

해결하고자 하는 과제

SIEM을 구축하거나 검증하려면 실감 나는 보안 로그가 필요하지만, 프로덕션 로그는 민감하여 사용할 수 없고 수작업으로 모방한 로그는 실제 파서(parser)를 통과하지 못할 뿐만 아니라 알려진 ground truth도 갖지 못합니다. S4 LogForge는 실제 장비 및 SIEM 스키마의 필드를 정교하게 반영하고 파서 검증을 마친 테스트 로그를 ground truth와 함께 생성하므로, 프로덕션 데이터에 접근하지 않고도 SIEM 프로젝트를 신속하게 진행할 수 있습니다.

작동 원리

1
포맷 및 시나리오 선택

13가지 출력 포맷과 MITRE ATT&CK 태그가 지정된 공격 시나리오 중에서 선택하고, 필요할 때는 TOML DSL을 사용해 자체 시나리오를 직접 작성할 수 있습니다.
2
backfill 또는 실시간 생성

30일 분량의 데이터를 단 몇 분 만에 backfill 하거나, 실시간 일주기 변동(diurnal) 곡선 형태의 스트림을 file, syslog, Elasticsearch, Splunk HEC로 전송합니다.
3
ground truth 대비 탐지 성능 측정

주입된 시나리오는 이미 알려진 ground truth이므로, 이를 기준으로 탐지율 및 오탐(false-positive) 비율을 평가할 수 있습니다.

주요 특징

13개 parser-faithful format — syslog 3164/5424, CEF, LEEF, PAN-OS CSV, ECS JSON, Windows Event/Winlogbeat, CloudTrail, VPC Flow, Zeek, Suricata, XDR telemetry — 각각 실제 parser로 검증되었으며, 단순히 '로그처럼 보이는' 수준이 아닙니다.

상관된 MITRE ATT&CK 태그 공격 시나리오를 현실적인 baseline noise에 주입하며, 자체 시나리오 작성을 위한 TOML DSL도 제공합니다 — 알려진 ground truth를 기준으로 detection 및 false-positive rate를 측정합니다.

Deterministic 및 rate-controlled: 동일 seed로 byte-identical 데이터를 재현합니다. 188k–1.6M events/sec를 지속하고, 30일치를 몇 분 안에 backfill하거나, realtime diurnal curve를 file, syslog, Elasticsearch 또는 Splunk HEC로 stream할 수 있습니다.

포함 사항

실제 파서로 검증을 마친 13가지 출력 포맷(RFC 3164/5424 syslog, CEF, LEEF 2.0, PAN-OS 10.2 CSV, ECS 8.11 JSON, XDR telemetry JSON, Windows Event Log XML / Winlogbeat, CloudTrail, VPC Flow, Zeek, Suricata)
Elasticsearch ingest, Elastic integration 파이프라인, Logstash의 grok/kv/xml/CEF 코덱 등 실제 파서를 대상으로 한 end-to-end 검증
현실적인 베이스라인 노이즈에 주입된 연관성 있는 MITRE ATT&CK 태그 지정 공격 시나리오(자체 시나리오 작성을 위한 TOML DSL 제공)
결정론적 시드 재현성: 동일한 시드로 바이트 단위까지 완전히 동일한 데이터를 재생성
188k–1.6M events/sec의 처리량과 단 몇 분 만에 완료되는 30일 분량의 backfill 생성
출력 싱크: file, syslog, Elasticsearch, Splunk HEC

주요 활용 사례

프로덕션 로그 없이 SIEM PoC 및 평가 실행

알려진 ground truth를 바탕으로 탐지 규칙 개발 및 튜닝

대표 데이터를 활용한 대시보드 구축 및 검증

용량 산정(capacity sizing) 및 부하 테스트 수행

자주 묻는 질문

생성된 로그는 충분히 현실적인가요?

13가지 포맷 모두 Elasticsearch ingest, Elastic integration 파이프라인, Logstash의 grok/kv/xml/CEF 코덱 등 실제 파서를 대상으로 end-to-end 검증을 완료했습니다. 단순히 로그처럼 보이는 수준이 아니라 실제 디바이스와 SIEM 스키마의 필드 명세를 충실히 반영하고 있습니다.

실행 결과를 재현할 수 있나요?

네, 그렇습니다. 생성이 결정론적으로 수행되므로, 동일한 시드를 사용하면 바이트 단위까지 완벽히 일치하는 데이터가 재생성됩니다.

탐지 품질은 어떻게 측정하나요?

상호 연관된 MITRE ATT&CK 태그 지정 시나리오가 알려진 ground truth 역할을 하므로, 이를 기준으로 탐지율 및 오탐(false-positive) 비율을 측정할 수 있습니다.

어디로 전송할 수 있나요?

file, syslog, Elasticsearch, Splunk HEC로 출력 가능하며, backfill 및 실시간 스트리밍 모두 동일한 싱크로 전송할 수 있습니다.

얼마나 빠르게, 얼마나 많은 데이터를 생성할 수 있나요?

188k–1.6M events/sec를 유지하며, 30일 분량의 데이터를 단 몇 분 만에 backfill 합니다.

요금제 모델

시간당 소프트웨어 요금 + EC2(t3급 이상). 인스턴스 유형별 종량 과금, 라이선스 키 불필요.

AWS Marketplace에서 받기

기타 S4 제품

스토리지 & 데이터

S4 — Squished S3

GPU로 S3를 투명하게 압축하는 게이트웨이

스토리지 바이트 50–80% 절감

대체 대상: Amazon S3 스토리지

옵저버빌리티

S4 Logs

CloudWatch Logs를 zstd S3로 아카이브

CloudWatch Logs 70–90% 절감

대체 대상: Amazon CloudWatch Logs

옵저버빌리티

S4 Metrics

CloudWatch metric cardinality 제어

메트릭 카디널리티 비용 제어

대체 대상: CloudWatch custom metrics