* 업무 연속 및 재난 복구 계획(BCP & DRP)
- 배경: 현재의 비즈니스 모델의 전산화된 IT에 밀접한 영향을 가지고 있다. 만일 IT 시스템이 문제가 되는 상황이 발생한다면, 기업의 비즈니스에 미치는 영향력이 이전에 비해 급속하게 증가하는 추세이다. 때문에, 현존하는 전산시스템관리에서 사업의 연속성(BCP:Business Continuity Planning)과 재난복구(DR:Disaster Recover)를 중요하게 고려해야 한다.
즉, BCP / DR은 인재 혹은 천재지변으로 부터 시스템을 보호하여 가용성(Availability)를 높이고 사업환경의 계속성을 유지하며 기업의 서비스 질적 수준을 높이는데 목적을 두고 있다.
- BCP(Business Continuity Planning)과 DR(Disaster Recovery)
1) 사업 연속성 계획(Business Continuity Planning): 각종 재해나 재난의 발생을 대비하여 핵심 시스템의 가용성과 신뢰성을 회복하고 사업의 연속성을 유지하기 위한 일련의 사업지속성계획과 절차를 의미한다. BCP는 단순한 데이터의 복구나 원상회복 뿐만 아니라 고객 서비스이 지속성을 보장하고 그로 인한 고객의 신뢰도를 유지하고 나아가 기업의 전체적인 신뢰성 유지와 가치를 최대화 하는 방법이다.
2) 재난 복구 계획(DRP: Disaster Recovery Planning): DR이란 때로 BCP 또는 BPCP(Business Process Contingency Plan)이라고 불리며, 한 조직이 잠재적인 재난에 대해 어떻게 대처할 것인지를 기술한 내용을 일컫는다. 여기서 재난이란 정상적인 기능의 수행이 불가능하게 만드는 사건(지진, 해일, 태풍, 폭발 등)을 의미하며, DR이란 재난의 피해를 최소화하고 그 조직이 중요 기능을 그대로 유지하거나 또는 신속히 재개할 수 있도록 취해진 예방조치들로 구성된다. DR의 주요 목적은 재난 발생 시 준비된 대체 장소에서 기업의 시스템을 운영하고 재해 완료시 기업의 원래 장소로 옮겨와 정상적인 업무 처리를 하는 것이다.
* BCP VS DRP의 차이점
- BCP(사업 연속성 계획)은 중요한 사업의 기능들을 비상시를 대비하여 자산(Assets)의 우선순위를 평가하거나, 대체 장소를 선택하는 등 재해나 재난시에 원상 복귀하고자 미리 평가 계획을 하는 단계.
- DRP(재난 복구 계획)은 실제 재해나 재난이 발생하는 동안 그리고 재해 발생 후에 조직원들이 취해야 하는 절차(ProcesS)와 계획등을 의미한다. 특히, DRP에는 Recovery Procedure를 포함한다는 점이 BCP와의 큰 차이라고 할 수 있다.
* 사업 영향 평가(BIA: Business Impact Assesment): 사업 영향 평가는 여러 가지 재해나 재난 그리고 위협에 따르는 영향(Impact)에 대하여 경영진들의 이해를 돕고 이를 근거로 MTD(Maximum Tolerable Downtime)을 계산하여 기업내의 사업 단위의 중요도와 의존도에 따라 우선순위를 계산하는 것이다. 각 사업 부분은 BCP(Business Continuity Planning)의 개발, 테스트 및 유지보수에 나름대로 참여를 하지만 실제로 초기에 임직원들과 광범위한 상호작용이 일어나는 것은 사업 영향 평가(BIA) 단계라 할 수 있다. 또한 BCP의 실질적인 성공여부는 BIA로 부터 시작 된다고 해도 과언이 아니다.
MTD(Maximum Tolerable Downtime: 최대 허용 가동 중지 시간): MTD는 조직의 최고 경영층이 주요 지원 서비스의 중단으로 인한 업무의 영향에 대해 허용할 수 있는 최대의 시간을 의미한다. 만일 MTB가 미리 결정되어 있지 않아 문서화되어 있지 않을 경우 최고 경영진의 부재중 재해 발생 시 중간 관리자들이 복구 절차 및 영향에 대해 방향을 잡지 못하여 재해 복구가 신속히 처리 되지 못할 위험이 있을 수 있다. |
* BCP(Business Continuity Planning) 접근 방법론
1) BCP 접근 4단계 방법론.
![]()
2. 사업 영향 평가(BIA): BIA의 목적은 사업 중단 사태가 발생하였을 경우 기업에 미칠 수 있는 정성적(예: 고객의 불만사항을 접수하지 못하는 경우) / 정량적(경제적) 영향도를 파악하여 우선 순위를 부여하고 문서화 하는 프로세스. 가. 중요사업의 우선순위 파악(핵심 우선순위 결정:(Criticality Prioritization)): 모든 핵심적 사업 단위 프로세스를 식별/우선순위를 부여. 파괴적 사건의 영향을 평가 해야 함. 나. 다운타임(Downtime) 산정(Downtime Estimate): MTD(Maximum Tolerable Downtime)의 산정 및 평가. 다. 자원의 요구사항 파악(Resource Requirements): 핵심 프로세스에 대한 자원 요구 사항도 이때 정의 된다. 시간에 민감한 프로세스에 대부분의 자원이 할당된다. - BIA는 다음과 같은 4단계로 진행한다. : 1단계: 필요한 평가 자료 수집 -> 2단계: 취약점 평가 -> 3단계: 수집된 정보 분석 -> 4단계: 결과의 문서화하고 권고문 작성.
3. 사업 연속성 계획 개발(BCP): BIA에서 수집된 정보를 이용하여 사업 단위의 기능을 지원하기 위한 복구 절차를 개발하고 복구 전략을 수립한다. 이 단계에서는 아래와 같은 2단계로 수행된다. - 1단계: 사업의 계속성 전략을 수립하고 정의 -> 2단계: 사업의 계속성 전략을 문서화.
4. 계획 승인 및 실행: BCP에 의해 수립된 계획이 실제 수행되는 단계이다. 즉, 실제 재난이 발생하여 복구 절차를 수행하는 것이 아니라 재난 가정하에 복구 절차를 수행하는 것이다. - 비상대책 계획(Contingency Planning) / 컴퓨터 보안 대책(Computer Security Plans): 소규모나 단순한 시스템에 대해서 비상대책 계획(Contingency planning)은 컴퓨터 보안의 대책의 부분이 될수 있지만, 대규모나 복잡한 시스템을 가진 기업에서는 컴퓨터 보안 대책이 비상대책 계획의 한 부분이 될 수 있다. |
2) BCP 접근 5단계 방법론.
![]()
2. 사업 영향 평가(BIA): 컴퓨터나 통신 서비스(network)의 심각한 중단사태에 따라 각 사업 단위가 받게 될 재정적 손실의 영향도를 파악. 3. 복구 전략 개발: BIA 단계에서 수집된 정보를 활용하여 Time-Critical한 사업 기능을 지원하는데 필요한 복구 자원을 추정한다. 여러 가지 가능한 복구 방안들에 대한 평가와 이에 따른 예상 비용에 대한 자료를 경영자 층에 제시하는 것도 이 단계에서 해야할 일이다. 4. 복구 계획 수립: 사업을 지속하기 위한 실제 복구 계획을 수립하는 단계. 효과적인 복구 과정을 수행하기 위해 명시적인 문서화가 반드시 요구되며 여기에는 경영 재산 목록 정보와 상세한 복구팀 행동 계획이 포함된다. 5. 프로젝트의 수행 테스트 및 유지보수: 마지막 단계로 테스트와 유지보수 활동 현황을 포함하여 향후에 수행할 엄격한 테스트 및 유지 보수 관리 절차를 수립한다. |
☞ Disk Mirroring(디스크 미러링) VS Disk Duplexing(디스크 이중화) - Disk Mirroring: 물리적 디스크를 두 개 이상 구성하여 가용성을 높이는 방식. 즉, 고장 허용 시스템(fault-tolerant system)을 실현하기 위해 필요한 입 출력장치 다중화의 한가지 방법으로, 여러 대의 다른 디스크 장치에 같은 정보를 기록해 놓았다가 오류가 발생했을 경우 다른 곳에 기록해 놓은 정보를 즉시 교체하는 것. RAID1방식. - Disk Duplexing: 디스크 controller를 이중화 하는 방식. 즉, 디스크 미러링의 일종으로 하드 디스크를 이중화하여 똑같은 데이터를 2대의 하드 디스크에 동시에 기록하고 보존하는 것은 디스크 미러링과 같으나, 2대의 하드 디스크가 고유의 하드 디스크 제어 장치를 가지고 있기 때문에 장애 허용성을 더 높인 처리 방식이다. |
3) BCP 접근 6단계 방법론.
4. 재난 대책 수립: 이 단계에서는 필요한 자원을 복구하는 방법을 계획한다. 또한 발생된 재난과 위험을 최소화하거나 방지하는데 그 목적이 있다. 이 때 고려해야할 중요한 요소가 비용이다. 위험을 방지하는데 드는 비용이 실제 사업을 지속하는 비용보다 더 많이 소요된다면 그 방지책은 효용가치가 없는 것임으로 비용대비 효과를 고려해야 대책을 수립해야 한다.
5. 재난 대책 수행: 일단 재난 대책 계획이 수립되면, 이제는 그 계획에 대한 적절한 준비와 수행, 문서화 그리고 직원들에 대한 훈련을 수행해야 한다.
6. 대책 테스트 및 수정: 비상 대책 계획은 계획의 결점 발견과 수행의 원활함을 도모하기 위해 정기적으로 테스트 수정 되어야 한다. 대표적인 방법은 다음과 같다.
|
* DRP(Disaster Recovery Planning:재난 복구 계획)
정보 시스템의 재난에 대한 개념을 NIST(National Institue of Standards and Technology:1994)에서는 "컴퓨터 운영의 붕괴로 조직의 정상적 기능이 파괴되는 비상사태"라고 정의 했다. 이와 같이 재난은 일반적으로 정보 시스템의 위협이 매우 파괴적인 경우에 그 결과로써 발생되는 손실이라고 할 수 있는데 이러한 재해나 재난 발생에 대비하여, 실제 상황이 발생 했을 때 취해야 할 행동 절차를 미리 준비하는 것이 재난 복구 계획(DRP)이다.
즉, 재해 복구 계획의 주요한 목적은 대체 사이트에 핵심 기능을 구현하고 신속한 복구 프로시저를 수행하여, 조직의 손실을 최소화시키는 시간 프레임 내에 주 사이트와 정상 프로세싱 상태로 되돌아가기 위한 능력을 제공하는 것.
* 재난 복구 계획(DRP: Disaster Recovery Planning)의 목표.
: 파괴적 사건이 발생하는 경우 결정해야 할 조직화된 방법을 제공하는 것. 재해 복구 계획의 취지는 혼란을 줄이고 위기 상황에 대처하기 위한 조직읜 능력을 확장시키는 것.
* 재난 복구 계획(DRP: Disaster Recovery Planning)의 목적.
- 정보의 비밀성, 무결성, 가용성, 인증성등 확보.
- 핵심적인 기업 업무의 연속성 유지.
- 테스트와 시뮬레이션을 통해 DRP의 신뢰성 유지.
- 재난 발생시에 의사결정 시간을 최소화하여 복구 시간을 단축.
- 시스템 운영중단 요인을 식별.
- 생존에 대한 계획을 마련.
- 재난 복구 방법 구축.
* 재난의 종류에 따른 대응 방안
재난(장애)의 종류 | 대응 방안 |
시스템 장애 | Clustering |
네트웍 장애 | 이중화 |
DISK 장애 | RAID, Mirroring |
스토리지 박스 장애 | Data Replication |
어플리케이션 장애 | Restore(Disk, TAPE) |
DB 장애 | Restore(Disk, TAPE) |
전산 센터 재해 | Remote Data Replication |
☞ RAID(Redundant Array of Independent Disks) : RAID는 Redundant Array of Inexpensive(or Independent) Disks의 약어이다. RAID 시스템은 여러 드라이브의 집합을 하나의 저장 장치처럼 사용할 수 있게 하고, 장애가 발생했을 때 데이터가 손상되지 않도록 각 각 독립적으로 동작할 수 있도록 한다. 기본적인 RAID의 개념은 작고 값싼 드라이브들을 연결해서 크고 비싼 드리아브 하나(SLED: Single Karge Expansive Disk)를 대체하자는 것이다. |
* DRP의 영역.
1) 재해 복구 계획 프로세스
2) 재해 복구 계획 테스트
3) 재해 복구 프로시저.
* 재해 복구 계획 프로세스
(1) 데이터 처리 지속 계획(Data Processing Continuity Planning): 재해를 예측하고 그에 대처하기 위한 계획 수립.
: 백업 서비스를 처리하는 다양한 방법들은 재해 복구 계획에서 가장 중요한 요소이다.
1. 가입 서비스(Subscription Services)
- 장점: 매우 적은 비용. - 단점: 신뢰성 및 실제 사고 발생 시 지원 여부가 불분명함. 3. 다중 센터(Multiple centers): 처리가 여러 운영 센터로 나누어지고, 가용한 자원의 공유와 중복성에 대한 분산 접근이 도입. - 장점: 비용이 내포되기 때문에 주로 경제적인 측면. - 단점: 상호 지원 계약가 유사한 단점을 갖음. 4. 서비스 업체(Service bureaus): 대채 백업 처리 서비스를 전적으로 제공하는 서비스 업체와 계약. - 장점: 서비스 업체의 신속한 대응과 가용성이며, 테스트가 가능하고 서비스 업체가 백업 이상의 것을 제공. - 단점: 비용 문제와 대규모 비상상황 발생 시 자원의 경합. 5. 기타 데이터 센터 백업 대안(Other data center backup alternatives) * 이동 백업 사이트(Rolling/Mobile backup sites): 이동 백업 사이트를 제공하는 벤더와 계약. 이것은 필요한 대체 처리를 수행하기에 충분한 전원과 HVAC를 갖춘 이동식 건물이나 평반형 트럭 형태. 주로 cold site의 변형으로 간주됨. - 하드웨어 교ㅗ환을 위한 내부 혹은 외부 지원(In-house or External supply of hardware replacements): 벤더가 필요한 하드웨어를 다시 지원해주거나 핵심 컴포넌트 인벤토리의 내부 비축. - 조립식 간이 빌딩(Prefabricated buildings): 재해가 발생하면 대체 처리 기능을 수용할 조립식 간이 빌딩을 구축하기 위해 회사가 서비스 조직을 채용하는 것은 이상한 일이 아니다. 이동 백업 사이트와 그다지 다르지 않은 콜드 사이트라 볼 수 있다.
|
(1) 데이터 복구 계획 유지보수(Data Recovery Plan Maintenance): 계획이 항상 적절하게 최신 버전을 반영하도록 유지.
* 재해 복구 계획 테스트(Disaster Recovery Procedure Test)
: 재난/재해 복구 계획이 계속적으로 갱신(수정)되지 않는다면 실제 재난 발생 시, DRP는 별다른 효과를 기대하기 어렵다. 때문에 재해 복귀 계획의 테스트는 필수적이며 시스템에 큰 변화가 있거나, 테스트 계획이 생성되고 테스팅이 순서대로, 표준화된 방법으로, 주기적으로 실행하여 DRP의 신뢰성을 높여야 한다.
* 테스트가 필요한 이유
- 테스트는 복구 프로시저의 정확성을 검증하고 결함 부분을 식별할 수 있는 기회를 제공한다.
- 테스트는 직원들이 비상시 자신의 의무사항을 수행하도록 준비하고 훈련시킨다.
- 테스트는 대체 백업 사이트의 처리 역량을 검증하게 해준다.
일반적으로 DRP 테스트는 테스트의 범위와 강도에 따라 다음 5단계로 구분된다.
1) Checklist(체크리스트): 재난복구계획(DRP)의 계획서 및 절차서를 각 사업단위의 담당자에게 배포되어, 계획의 절차나 오류를 점검/검토 시킨다. 이는 실제 복구 테스트의 전 단계이며, 이 자체로써는 큰 의미가 없지만 다음 단계의 복구 테스트를 신속하고 정확하게 수행하기 위해 필요하다.
2) Structured Walk-Through(구조적 점검)
: 사업 단위의 관리자의 대표들이 계획을 점검 및 논의하기 위해 회의를 수행하며, 구조적 점검의 수행 목적은 각 조직의 복구 능력을 성공적으로(문서상 - 계획서상) DRP에 반영했는지를 확인하는 것이며, 실질적인 논의가 수행되면서 계획서상 중요한 결점점이나 오류를 식별할 수 있는 기회를 제공해 준다. 만일 이 단계에서 중요 결점들을 간과한다면 다음 단계에서 정확한 테스트가 보장되지 않을 수 있다.
3) Simulation(시뮬레이션): 실제 비상사태가 났다는 가정하에 시스템 운영 관련 주요 관리자와 직원들이 비사 모임을 갖고 복구 절차를 검토하는 단계이다. 실제 백업 장소에서 실시하는 것이 아니라는 것이 아래의 Parellel Test와 다른 점이다.
4) Parallel Test(병령 테스트): 모든 직원을 활용하여 복구 계획에 대해 완전하게 테스트 하는 것이다. Full-Interruption Test와 차이점은 사업의 기본적인 운영 시스템을 중단하지 않는다는 것이다. 즉, 운영 시스템 및 데이터와는 별개인 사전에 준비된 가상의 데이터와 시스템을 이용하여 테스트를 수행한다. 병렬 테스트의 목적은 핵심적 시스템이 대체 처리 백업 사이트에서 정말 수행되는지 보장하는 것이다. Parallel Test는 가장 많이 사용되는 재해 복구 계획 테스트 방법이다.
5) Full-interruption Test(전체 시스템 중단 테스트): 실제로 재난이 발생할 때와 동일한 운영 시스템과 데이트를 사용하여 Test를 수행한다. 즉, 실제 재해 상황처럼 비상 서비스가 호출되고 계획이 전체적으로 실행된다. 이 자체 테스트로 재해를 유발시킬 수 있기 때문에 거의 사용되지 않는다.
* 재해 복구 프로시저.
: 계획에서 이 부분은 다양한 직원이 담당하는 역할이 무엇인지, 사이트를 복구하고 구조하기 위해 구현해야 하는 작업이 무엇인지, 회사가 많은 외부 그룹과 어떻게 인터페이스 해야하는지, 그리고 경제적 고려사항에 관해 상세하게 보여준다.
* 재난(Disaster)는 언제 종료되는가?
재난이 발생하여 DRP가 수행되고 난 뒤 언제 재난이 끝났다고 할 수 있는가? 재난이 끝나는 시점은 백업 대체 장소에서 원래의 사업 장소로 업무가 돌아오고 모든 시스템과 데이터으ㅏㅣ 정확성과 무결성이 확인되고 정상 업무가 시작될 때 이다. 그 이유는 백업 사이트로 부터 Original 운영 사이트로 되돌아갈 때 매우 거대한 취약성의 구성이 존재하기 때문에 정상적으로 운영 홈으로 돌아가 정상 작동을 확인하였을 때, 재난이 공식적으로 종료된다.
☞ 보충 이론. * MTTR(Mean Time To Recovery): 평균 회복 시간, 시스템 혹은 디바이스가 복구 되는데 걸리는 평균 시간. 낮을 수록 좋음. * MTBF(Meam Time Between Failures): 평균 무고장 시간. 제품의 신뢰도 측정 기준. 높을 수록 안전함. - MTBF = 1/(sum of all the part failures rates) * RTO(Recovery Time Objectives): 비즈니스 기능과 어플리케이션을 복구 시켜야 하는 특정 시간대를 의미하며, 재해 발생 통보 전의 시간과 업무를 수행 할 수 있는 시간을 포함한다. * RPO(Recovery Point Objectives): 시스템의 프로세스를 성공적으로 재개할 수 있도록 데이터를 복구 시켜 주어야 하는 시점을 의미한다. 흔히 최종 백업 시점과 시스템이 작동 중지된 시점 사이의 시간으로 정의하기도 한다. |
====================================================================================
[Q1 - 2010] 업무 연속성의 5 단계 접근 방법론을 순서대로 나열한 것은? 1)
가. 프로젝트의 범위 설정 및 기획 나. 프로젝트의 수행테스트 및 유지보수 다. 복구 전략 개발 라. 복구 계획 수립 마. 사업 영향 평가. |
1) 가 - 마 - 다 - 라 - 나
2) 가 - 다 - 마 - 라 - 나
3) 가 - 마 - 라 - 다 - 나
4) 가 - 다 - 라 - 마 - 나
5) 가 - 라 - 다 - 마 - 나
[Q2 - 2010] 재난복구계획(DRP) 테스트는 테스트의 범위와 강도에 따라 5단계로 나뉜다. 다음 보기 중 가장 강도가 낮은 단계는 무엇인가? 2)
1) Simulation
2) Structured Walk-Through
3) Full-Interruption Test
4) Parallel Test
[Q3 - 2006] 재해복구시스템 복구 수준별 유형 중 재해복구센터에 주 센터와 동일한 수준의 정보기술자원을 보유하는 대신, 중요성이 높은 정보기술자원만 부분적으로 재해복구센터에 보유하고, 데이터의 백업 주기가 수시간 정도인 방식은 무엇인가? 3)
1) 미러사이트(Mirror Site)
2) 핫사이트(Hot Site)
3) 윔사이트(Warm Site)
4) 콜드사이트(Cold Site)
[Q4 - 2006] 각종 재해나 재난의 발생을 대비하여 핵심 시스템의 가용성과 신뢰성을 회복하고 업무의 연속성을 유지하기 위한 일련의 계획과 절차를 일컬으며, 단순한 데이터의 복구나 원상회복뿐만 아니라 업무의 지속성을 보장하고 그로 인한 조직의 신뢰도를 유지하고 나아가 전체적인 신뢰성 유지와 가치를 최대화하는 방법은 무엇인가? 3)
1) BIA(Business Impact Assessment)
2) DRP(Disaster Recovery Planning)
3) BCP(Business Continuity Planning)
4) MTD(Maximum Tolerable Downtime)
[Q5 - 2007] 재해복구를 위한 전략 수립을 위해서는 업무 영향 분석(BIA: Business Impact Analysis)이 수행되어야 한다. 업무 영향 분석의 절차를 바르게 나열한 것은? 4.
A, 주요 업무 프로세스 식별 B. 재해 유형 및 가능성 식별 C. 업무 중요성 및 복구 대상 업무의 범위 설정. D. 재해시 업무 프로세스 중단에 따른 손실 평가. E. 주요업무 프로세스별 복구 목표 시간 설정. |
1) A-B-C-D-E
2) A-B-C-E-D
3) A-C-B-D-E
4) A-B-D-C-E
[Q6 - 2008] 재해 및 재해복구 시스템 개념에 대한 다음 설명 중 틀린 것은? 1)
1) RTO(Recovery Time Objective)는 재해로 인하여 서비스가 중단 되었을 때, 서비스를 복구하는데 까지 걸리는 예상 시간.
2) RPO(Recovery Point Objective)는 재해로 인하여 중단된 서비스를 복구 하였을 때, 유실을 감내할 수 있는 데이터의 손실 허용 시점이다.
3) 업무연속성 계획(BCP)는 장애 및 재해 발생 시 시스템의 생존을 보장하기 위한 예방 및 복구 활동 등을 포함하는 계획이다.
4) 재호복구시스템(DRP)는 재해복구계획의 원활한 수행을 지원하기 위하여 평상시에 확보하여 두는 시스템이다.
93. 다음은 업무연속성계획(Business Continuity Plan)에서 고려해야 할 사항을 열거하였다. 이들 중에서 가장 먼저 시행해야 할 항목은 어떤 것인가? 4)
① 훈련연습 : 모의훈련 실시 및 평가
② 전략수립 : 업무 영향력 분석, 업무별 복구전략
③ 상시운영계획 : 상시운영팀 구성, 대응복구절차 계획
④ 위험분석 : 취약성, 업무 분석