S4 LogForge
현실적인 SIEM 테스트 로그 생성기
13개 format의 현실적이고 parser-faithful한 security log를 원하는 rate로 생성합니다 — 30일치를 몇 초 안에 backfill하거나 realtime으로 stream할 수 있습니다. SIEM PoC, detection-rule 개발, dashboard, capacity sizing, load testing용으로 설계되었습니다. MITRE ATT&CK 태그가 붙은 상관 공격 시나리오와 deterministic, reproducible output을 제공합니다.
S4 LogForge는 실제 장비와 SIEM schema에 field-faithful한 security log를 생성합니다 — production log를 사용할 수 없지만 SIEM 프로젝트에 production-like 데이터가 필요한 경우를 위해 설계되었습니다. 13개 output format은 각각 실제 parser(Elasticsearch ingest pipeline, Elastic integration, Logstash grok / kv / xml / CEF codec)에 대해 end-to-end로 검증되었습니다: RFC 3164/5424 syslog; CEF(ArcSight-style); LEEF 2.0(QRadar-style); PAN-OS 10.2 CSV; ECS 8.11 JSON; XDR telemetry JSON; Windows Event/Winlogbeat; CloudTrail; VPC Flow; Zeek; Suricata.
해결하고자 하는 과제
SIEM을 구축하거나 검증하려면 실감 나는 보안 로그가 필요하지만, 프로덕션 로그는 민감하여 사용할 수 없고 수작업으로 모방한 로그는 실제 파서(parser)를 통과하지 못할 뿐만 아니라 알려진 ground truth도 갖지 못합니다. S4 LogForge는 실제 장비 및 SIEM 스키마의 필드를 정교하게 반영하고 파서 검증을 마친 테스트 로그를 ground truth와 함께 생성하므로, 프로덕션 데이터에 접근하지 않고도 SIEM 프로젝트를 신속하게 진행할 수 있습니다.
작동 원리
- 1
포맷 및 시나리오 선택
13가지 출력 포맷과 MITRE ATT&CK 태그가 지정된 공격 시나리오 중에서 선택하고, 필요할 때는 TOML DSL을 사용해 자체 시나리오를 직접 작성할 수 있습니다.
- 2
backfill 또는 실시간 생성
30일 분량의 데이터를 단 몇 분 만에 backfill 하거나, 실시간 일주기 변동(diurnal) 곡선 형태의 스트림을 file, syslog, Elasticsearch, Splunk HEC로 전송합니다.
- 3
ground truth 대비 탐지 성능 측정
주입된 시나리오는 이미 알려진 ground truth이므로, 이를 기준으로 탐지율 및 오탐(false-positive) 비율을 평가할 수 있습니다.
주요 특징
13개 parser-faithful format — syslog 3164/5424, CEF, LEEF, PAN-OS CSV, ECS JSON, Windows Event/Winlogbeat, CloudTrail, VPC Flow, Zeek, Suricata, XDR telemetry — 각각 실제 parser로 검증되었으며, 단순히 '로그처럼 보이는' 수준이 아닙니다.
상관된 MITRE ATT&CK 태그 공격 시나리오를 현실적인 baseline noise에 주입하며, 자체 시나리오 작성을 위한 TOML DSL도 제공합니다 — 알려진 ground truth를 기준으로 detection 및 false-positive rate를 측정합니다.
Deterministic 및 rate-controlled: 동일 seed로 byte-identical 데이터를 재현합니다. 188k–1.6M events/sec를 지속하고, 30일치를 몇 분 안에 backfill하거나, realtime diurnal curve를 file, syslog, Elasticsearch 또는 Splunk HEC로 stream할 수 있습니다.
포함 사항
- 실제 파서로 검증을 마친 13가지 출력 포맷(RFC 3164/5424 syslog, CEF, LEEF 2.0, PAN-OS 10.2 CSV, ECS 8.11 JSON, XDR telemetry JSON, Windows Event Log XML / Winlogbeat, CloudTrail, VPC Flow, Zeek, Suricata)
- Elasticsearch ingest, Elastic integration 파이프라인, Logstash의 grok/kv/xml/CEF 코덱 등 실제 파서를 대상으로 한 end-to-end 검증
- 현실적인 베이스라인 노이즈에 주입된 연관성 있는 MITRE ATT&CK 태그 지정 공격 시나리오(자체 시나리오 작성을 위한 TOML DSL 제공)
- 결정론적 시드 재현성: 동일한 시드로 바이트 단위까지 완전히 동일한 데이터를 재생성
- 188k–1.6M events/sec의 처리량과 단 몇 분 만에 완료되는 30일 분량의 backfill 생성
- 출력 싱크: file, syslog, Elasticsearch, Splunk HEC
주요 활용 사례
프로덕션 로그 없이 SIEM PoC 및 평가 실행
알려진 ground truth를 바탕으로 탐지 규칙 개발 및 튜닝
대표 데이터를 활용한 대시보드 구축 및 검증
용량 산정(capacity sizing) 및 부하 테스트 수행
자주 묻는 질문
생성된 로그는 충분히 현실적인가요?
13가지 포맷 모두 Elasticsearch ingest, Elastic integration 파이프라인, Logstash의 grok/kv/xml/CEF 코덱 등 실제 파서를 대상으로 end-to-end 검증을 완료했습니다. 단순히 로그처럼 보이는 수준이 아니라 실제 디바이스와 SIEM 스키마의 필드 명세를 충실히 반영하고 있습니다.
실행 결과를 재현할 수 있나요?
네, 그렇습니다. 생성이 결정론적으로 수행되므로, 동일한 시드를 사용하면 바이트 단위까지 완벽히 일치하는 데이터가 재생성됩니다.
탐지 품질은 어떻게 측정하나요?
상호 연관된 MITRE ATT&CK 태그 지정 시나리오가 알려진 ground truth 역할을 하므로, 이를 기준으로 탐지율 및 오탐(false-positive) 비율을 측정할 수 있습니다.
어디로 전송할 수 있나요?
file, syslog, Elasticsearch, Splunk HEC로 출력 가능하며, backfill 및 실시간 스트리밍 모두 동일한 싱크로 전송할 수 있습니다.
얼마나 빠르게, 얼마나 많은 데이터를 생성할 수 있나요?
188k–1.6M events/sec를 유지하며, 30일 분량의 데이터를 단 몇 분 만에 backfill 합니다.
요금제 모델
시간당 소프트웨어 요금 + EC2(t3급 이상). 인스턴스 유형별 종량 과금, 라이선스 키 불필요.