💰

[SAP] 재해복구(DR) 전략 & 비용 최적화

Date

2026/03/09

RTO & RPO 정의

RTO (Recovery Time Objective)

서비스 중단과 서비스 복구 사이의 최대 허용 지연시간 즉, 서비스 다운타임으로 허용 가능한 시간 (”언제까지는 복구해야 해”)

RPO (Recovery Point Objective)

마지막 데이터 복구 시점 이후 최대 허용 시간 즉, 허용 가능한 데이터 손실 범위 (”언제까지의 데이터는 복구가 되어야 해”)

재해 발생
    │◄──── RPO ────►│◄──────── RTO ────────►│
    │               │                       │
 마지막 백업      재해 발생 시점              서비스 복구
 (이 이후 데이터                            완료 시점
  손실 허용)

RPO = 얼마나 오래된 데이터까지 잃어도 되는가 (데이터 손실 허용량)
RTO = 재해 후 얼마 만에 복구해야 하는가 (복구 속도 목표)
Plain Text
복사

RTO — 시간(다운타임) 관점 RPO — 데이터 관점

숫자가 낮을수록 비용이 높아진다.

DR 전략

전략 1 — Backup & Restore

RTO: 수 시간 / RPO: 수 시간

가장 단순하고 저렴한 방식

Primary Region              Recovery Region
[프로덕션 환경]                     [없음]
     │
     │ 스냅샷/백업 → S3 Cross-Region 복제
     ▼
[S3 버킷 (백업 저장)]

재해 발생 시:
① CloudFormation으로 인프라 재생성
② S3에서 데이터 복원
③ Route 53 DNS 전환
→ RTO: 수 시간 / RPO: 수 시간 (백업 주기에 따라)
Plain Text
복사

•

비용: 가장 저렴 (S3 스토리지 비용만 발생)

•

사용 사례: 규정 준수용 백업, 비중요 워크로드

전략 2 — Pilot Light

RTO: 수십 분 / RPO: 수 분

복구 리전에 핵심 워크로드 인프라 사본을 프로비저닝한다. 데이터를 복구 리전으로 복제하고 백업을 생성한다. 데이터베이스 등 데이터 복제와 백업을 지원하는 리소스는 항상 실행 중이지만, 애플리케이션 서버 등의 나머지 요소는 필요할 때 생성할 수 있도록 배포되지 않은 상태로 유지한다.

Primary Region              Recovery Region
[Full 프로덕션 환경]         [핵심 DB만 실행 중 🔵]
     │                       EC2: 미배포 (AMI만 복사)
     │ DB 복제                LB: 미배포
     ▼                       App: 미배포
[RDS Primary] ──────────► [RDS Replica 🔵 항상 ON]

재해 발생 시:
① EC2 인스턴스 AMI로 배포 (Turn On)
② Auto Scaling 스케일 아웃
③ Route 53 DNS 전환
→ RTO: 수십 분 / RPO: 수 분
Plain Text
복사

DB(데이터)는 항상 복제 중, Compute는 꺼진 상태

전략 3 — Warm Standby

RTO: 수 분 / RPO: 수 초

Pilot Light와 Warm Standby의 공통점으로는 둘 다 복구 리전에 Primary 리전 자산의 사본 환경이 있다는 것이다. 하지만 차이점은 Pilot Light는 추가 작업 없이는 요청을 처리할 수 없지만, Warm Standby는 즉시 트래픽을 처리할 수 있다는 것이다(축소된 용량에서). Pilot Light는 서버를 켜고 추가 인프라를 배포한 후 스케일 업이 필요하지만, Warm Standby는 스케일 업만 하면된다(모든 것이 이미 배포되어 실행 중).

Primary Region              Recovery Region
[Full 프로덕션 환경]         [축소 버전 전체 실행 중 🟡]
                             EC2: 최소 1대 실행 중
     │ DB 복제               LB: 실행 중
     ▼                       App: 실행 중 (소규모)
[RDS Primary] ──────────► [RDS Replica 🟡]

재해 발생 시:
① Auto Scaling으로 스케일 아웃 (Scale Up만 하면 됨)
② Route 53 DNS 전환
→ RTO: 수 분 / RPO: 수 초
Plain Text
복사

Pilot Light vs Warm Standby 결정적 차이:

Pilot Light → 서버 켜기 + 배포 + 스케일 아웃 필요 Warm Standby → 스케일 아웃만 필요 (이미 배포되어 실행 중)

전략 4 — Multi-Site Active/Active

RTO: 잠재적 0 / RPO: 거의 0

Multi-Region Active/Active는 워크로드가 여러 AWS 리전에 배포되어 모든 리전에서 트래픽을 처리한다. 이 전략은 리전 간 데이터 동기화가 필요하다.

Primary Region              Recovery Region
[Full 프로덕션 환경 🟢]      [Full 프로덕션 환경 🟢]
     │                            │
     │◄──── 양방향 데이터 복제 ────►  │
     │                            │
     └────────┬───────────────────┘
              │
        Route 53 / Global Accelerator
        (두 리전 모두 트래픽 수신)

재해 발생 시:
① 장애 리전 트래픽 자동 차단
② 남은 리전이 전체 트래픽 처리
→ RTO: 거의 0 / RPO: 거의 0
Plain Text
복사

•

비용: 가장 비쌈 (2배 인프라 운영)

•

주의: 양방향 DB 동기화 시 Write 충돌 처리 복잡

Summary

비용 낮음 ◄────────────────────────────────► 비용 높음
RTO/RPO 높음 ◄──────────────────────────────► RTO/RPO 낮음

Backup &     Pilot        Warm          Multi-Site
Restore      Light        Standby       Active/Active
   │            │            │               │
 수 시간       수십 분         수 분           거의 0
Plain Text
복사

전략	RTO	RPO	컴퓨트 상태	DB 상태	비용
Backup & Restore	수 시간	수 시간	없음	백업만
Pilot Light	수십 분	수 분	꺼짐(AMI 대기)	항상 복제 중
Warm Standby	수 분	수 초	축소 실행 중	항상 복제 중
Multi-Site A/A	~0	~0	풀 실행 중	양방향 복제

RTO < 1시간 → Warm Standby 이상

RTO < 15분 또는 RPO ~ 0 → Multi-Site Active/Active

비용 효율적이면서 핵심 DB만 보호 → Pilot Light

비중요 시스템, 비용 최소화 → Backup & Restore

Disaster Recovery of Workloads on AWS: Recovery in the CloudDisaster recovery options in the cloud - Disaster Recovery of Workloads on AWS: Recovery in the Cloud

AWS DR 핵심 서비스

AWS Elastic Disaster Recovery (DRS)

Elastic Disaster Recovery는 온프레미스 또는 다른 클라우드의 워크로드를 AWS로 DR 복구하는데 사용할 수 있다. EC2 기반 애플리케이션과 데이터베이스에 대한 AWS 호스팅 워크로드 DR에도 사용 가능하다. Pilot Light 전략을 사용해 스테이징 VPC에 데이터 사본과 꺼진 리소스를 유지한다. Failover 이벤트 발생 시 스테이징 리소스가 복구 VPC에 전체 용량 배포를 자동으로 생성한다.

온프레미스 / 타 클라우드         AWS (DR Region)
[프로덕션 서버]                   [Staging VPC]
      │                            ├── Replication Server
      │ 지속적 블록 레벨 복제           ├── Replicated EBS Volumes
      └──────────────────────────► └── (EC2 꺼진 상태)

Failover 트리거 시:
→ 자동으로 EC2 인스턴스 생성 (Recovery VPC)
→ RTO: 수 분 / RPO: 수 초
Plain Text
복사

MGN vs DRS 혼동 주의

AWS MGN (Application Migration Service) → 마이그레이션 (한 번 이동)

AWS DRS (Elastic Disaster Recovery) → 재해복구 (지속적 보호)

Aurora Global Database

•

RPO: 1초 미만 (비동기 복제, 일반적으로 < 1초 지연)

•

RTO: 1분 미만 (Secondary를 Primary로 승격)

•

최대 5개 Secondary 리전 지원

•

읽기 전용 Secondary → Failover 시 Primary로 승격

Route 53 Failover 라우팅

Route 53 Health Check
    │ Primary 엔드포인트 모니터링
    │
    ├── Primary 정상 → Primary로 트래픽
    └── Primary 비정상 → Secondary(DR)로 자동 전환

설정:
① Primary 레코드: Health Check 연결
② Secondary 레코드: Failover 타입
→ DNS TTL 낮게 설정 (60초 이하) → 빠른 전환
Plain Text
복사

AWS Backup

•

중앙 집중식 백업 정책: 여러 AWS 서비스(EC2, RDS, EFS, DynamoDB 등) 백업 통합 관리

•

Backup Plan: 일정, 보존 기간, 백업 규칙 정의

•

Cross-Account Backup: Organizations와 통합해 다른 계정으로 백업 복사

•

Cross-Region Backup: 다른 리전으로 백업 자동 복사

•

Vault Lock (WORM): 백업 불변성 보장, 삭제 방지

여러 서비스 백업을 한 곳에서 정책으로 관리 → AWS Backup

RDS 개별 스냅샷 vs AWS 정책 비교 문제 자주 출제

비용 최적화

구매 옵션

옵션	할인율	약정	중단 위험	적합한 워크로드
On-Demand	없음	없음	없음	예측 불가, 단기
Reserved Instances	최대 75%	1년/3년, 특정 인스턴스	없음	안정적, 예측 가능
Savings Plans	최대 72%	1년/3년, $/시간 약정	없음	유연한 장기 약정
Spot Instances	최대 90%	없음	있음	중단 허용 워크로드

Savings Plans

AWS는 Reserved Instances보다 Savings Plans를 권장한다. Savings Plans는 AWS 컴퓨팅 비용 절감을 위한 가장 쉽고 유연한 방법으로, On-Demand 대비 최대 72% 할인을 제공한다. Reserved Instances는 특정 인스턴스 구성에 약정하지만, Savings Plans는 시간당 달러 단위의 일정 사용량에 약정하면 된다.

Savings Plans 유형	적용 범위	유연성	할인율
Compute SP	EC2 + Fargate + Lambda	최고 (인스턴스 패밀리, OS, 리전 자유)	최대 66%
EC2 Instance SP	특정 인스턴스 패밀리 + 리전	중간 (사이즈/OS 자유)	최대 72%
SageMaker SP	SageMaker 전용	SageMaker만	최대 64%

Reserved Instances

Standard RI는 가장 큰 할인을 제공하지만 수정만 가능하고 교환을 불가하다. Convertible RI는 Standard보다 낮은 할인율을 제공하지만 다른 인스턴스 속성을 가진 Convertible RI로 교환이 가능하다.

•

Standard RI → 최대 할인, 인스턴스 패밀리/리전 변경 불가, 마켓플레이스 판매 가능

•

Convertible RI → 낮은 할인, 다른 Convertible RI로 교환 가능 (유연성 ↑)

Spot Instance 핵심 패턴

•

최대 90% 절감, 단 AWS가 용량 필요 시 2분 전 통보 후 중단

•

적합한 워크로드: 배치 처리, 빅데이터, CI/CD, 머신러닝 학습, 렌더링

•

Spot Fleet: 여러 인스턴스 풀에서 Spot + On-Demand 혼합 운용

•

Capacity Rebalancing: 중단 위험 감지 시 미리 새 Spot 확보

가장 저렴 + 중단 허용 → Spot

장기 안정 워크로드, 유연성 필요 → Compute Savings Plans

장기 안정 워크로드, 최대 할인 → Standard RI

인스턴스 변경 가능성 있음 → Convertible RI

Savings PlansWhat are Savings Plans? - Savings Plans

Amazon Elastic Compute CloudReserved Instances for Amazon EC2 overview - Amazon Elastic Compute Cloud

비용 최적화 도구

도구별 역할 명확히 구분

도구	역할	핵심 기능
Cost Explorer	과거/현재 비용 분석	서비스별·태그별 비용 시각화, RI/SP 구매 추천
AWS Budgets	예산 알림 설정	임계값 초과 시 SNS/이메일 알림, 자동 액션
Compute Optimizer	리소스 적정 규모 추천	EC2/Lambda/EBS/ECS 과소/과잉 사용 탐지
Trusted Advisor	전반적 모범 사례 점검	비용·보안·성능·내결함성·서비스 한도 5개 영역
Cost & Usage Report	가장 상세한 청구 데이터	시간별 리소스 단위 전체 데이터, S3 저장 후 Athena 분석
S3 Storage Lens	S3 사용량 최적화	버킷별 스토리지 사용 패턴, 비용 절감 기회 탐지

태깅 전략 — 비용 배분의 핵심

태그 예시:
  Environment: Production / Staging / Dev
  Team:        Backend / Frontend / Data
  CostCenter:  CC-001 / CC-002
  Project:     ProjectA / ProjectB

→ Cost Explorer에서 태그별 필터링
→ 팀/프로젝트별 정확한 비용 배분 가능

활성화 방법:
  Billing → Cost allocation tags → 태그 활성화 (24시간 후 반영)
Plain Text
복사

EC2 인스턴스가 과도하게 프로비저닝됐는지 확인 → Compute Optimizer

부서별 비용 배분 리포트 → Cost Allocation Tags + Cost Explorer

예산 초과 시 EC2 자동 중지 → AWS Budgets Action

가장 세분화된 청구 데이터 분석 → Cost & Usage Report + Athena

Summary

개념	한 줄 요약
RPO	데이터 손실 허용 범위 (마지막 백업 이후)
RTO	복구 시간 목표 (중단 후 복구까지)
Backup & Restore	가장 저렴. RTO/RPO 수 시간. 스냅샷+IaC
Pilot Light	DB만 항상 복제. 컴퓨트는 꺼짐. RTO 수십 분
Warm Standby	전체 축소 실행. 스케일 업만 필요. RTO 수 분
Multi-Site A/A	양방향 복제. RTO/RPO ≈ 0. 가장 비쌈
DRS	블록 레벨 복제. Pilot Light 방식. 온프레미스→AWS
Aurora Global DB	RPO < 1초, RTO < 1분. 최대 5개 Secondary
Compute SP	가장 유연한 Savings Plans (EC2+Fargate+Lambda)
Standard RI	최대 할인, 교환 불가. 마켓플레이스 판매 가능
Convertible RI	낮은 할인, 다른 Convertible RI로 교환 가능
Spot	최대 90% 절감, 2분 전 통보 후 중단 가능
Compute Optimizer	EC2/Lambda/EBS 적정 규모 추천
Budgets Action	예산 초과 시 EC2 자동 중지 등 자동 액션

이전 게시물

[SAP] IAM Access Analyzer & Secrets Manager

다음 게시물

[SAP] S3 복제 전략 & StorageClass