[기고] MS 클라우드 사태로 본 균형 잡힌 IT 인프라 전략의 중요성
상태바
[기고] MS 클라우드 사태로 본 균형 잡힌 IT 인프라 전략의 중요성
  • 정회권 에스넷시스템 공공사업본부 부사장 
  • 승인 2024.08.22 06:00
  • 댓글 0
이 기사를 공유합니다
정회권 에스넷시스템 공공사업본부 부사장
정회권 에스넷시스템 공공사업본부 부사장

매일일보  |  최근 마이크로소프트(MS) 클라우드 서비스의 대규모 장애로 인해 많은 기업들이 심각한 혼란을 가졌다. 항공업계의 타격이 컸다. 발권과 예약 확인이 불가능해져 수기로 업무를 처리해야 했고, 승객들의 대기 시간이 길어지고 항공기 운항이 지연되는 사태까지 벌어졌다. 이번 사건을 통해 퍼블릭 클라우드 서비스 제공업체(CSP)에 발생한 장애에 의한 영향범위가 글로벌하게 다양한 사업분야와 업체에 미칠 수 있음을 여실히 보여줬다.

그러나, 이 사건으로 인해 클라우드 사용을 주저하거나 부정적인 인식을 가질 것이 아니라, 오히려 이번 사건을 반면교사 삼아 더 안전한 클라우드 인프라 수립 전략을 재검토 하는 것이 바람직하다. 

이번 장애의 근본 원인은 보안 업체 CrowdStrike의 잘못된 보안 업데이트가 Microsoft Windows 시스템을 사용하는 사용자들에게 배포됐기 때문이다. 클라우드 서비스 자체의 문제라기보다는 연관 시스템 간의 상호작용에서 발생한 문제로 볼 수 있다. 이처럼 클라우드 장애는 다양한 문제로 발생할 수 있다.

안정적이고 신뢰할 수 있는 IT 인프라 구축을 위해서는 다음을 고려해야 한다. 

첫째, 장애 범위를 분리하고 최소화하는 전략이 필요하다. 망 분리와 멀티 클라우드 도입을 통해 단일 장애점(Single Point of Failure)을 제거하는 것이다. 망 분리로 네트워크를 물리적 및 논리적으로 나눠 한 부분의 문제가 전체로 번지는 것을 막고, 멀티 클라우드 전략으로 여러 클라우드 제공업체를 동시에 이용해 위험을 분산시킬 수 있다. 

클라우드 환경에서의 서비스 영향 범위를 사전에 파악하고 대비해야 한다. 클라우드 서비스들 간의 상호 의존성을 파악하고, 특정 인스턴스 장애에 의해 발생 가능한 서비스 장애를 파악하여 그 영향 범위를 최소화 할 필요가 있다. 지속적으로 클라우드 환경의 서비스 안정성을 높이고, 지속적인 사용량 모니터링과 장애 발생시 신속하게 대응할 수 있는 체계를 갖춰야 한다. 

셋째, HA(High Availability, 고가용성)와 DR(Disaster Recovery, 재해복구) 전략을 수립하여 서비스의 연속성을 보장해야 한다. HA로 사전에 여러 대의 서버를 준비한다. 한 서버에 문제가 생겨도 다른 서버로 바로 대체해 중단 없는 서비스를 제공하고, DR로 대규모 장애나 재난 상황에서 백업해둔 정보를 빨리 복구 할 수 있도록 한다.

주기적으로 업데이트되는 장애 대응 계획을 수립하고, 정기적인 모의훈련을 통해 실효성을 검증해야 한다. 시스템 변경 작업 전에는 충실한 작업 계획과 충분한 테스트가 선행돼야 한다. 보안 패치 적용 전에는 철저한 사전 검토와 테스트가 필수적이다. 작업 실행 과정에서는 명확한 프로세스를 준수하여 인적 오류를 최소화 하는 것도 중요하다.

회사는 인천공항의 IT 인프라 구축 파트너로 망분리 사업과 VDI 사업 등에 참여했고, 최근 클라우드 인프라 구축사업을 진행한 바 있다. 다행히 이번 MS Cloud 장애로 발생한 전세계 항공사 및 공항에 미친 영향에 비해 인천공항은 그 영향이 적었다. 향후 발생할 지 모를 위험에 대비해야 함은 분명하다. 공항과 같은 국가 주요 기반시설의 IT 인프라의 중요성은 아무리 강조해도 지나치지 않는다. 공공 인프라의 안정성과 신뢰성은 국가 경제와 국민 생활에 직접적인 영향을 미치는 만큼 주요 국가 시설의 디지털 전환을 신중하게 접근해야하는 까닭이다. 

이번 MS 클라우드 장애로 대규모 클라우드 서비스 장애에 의한 잠재적인 위험성과 그 범위가 방대함을 체감하였으며, 안정적 시스템 디자인, 효과적인 재해복구 절차 수립 등 다양한 위험요소를 고려한 종합적인 클라우드 전략이 필요함을 교훈으로 얻었다. 

클라우드 기반의 서비스는 거스를 수 없는 시대의 흐름이다. 이번 클라우드 장애 사태로 인해 단순히 위험을 회피하는 기술적 과제에 함몰되지 말고, 디지털 시대의 생존에 필요한 전략 수립과 더욱 안정적이고 신뢰할 수 있는 IT 서비스를 위한 균형 잡힌 접근법 유지가 필요하다. 비즈니스 연속성과 국가 기간 시설의 안정성을 보장하는 핵심요소로써, IT 인프라 투자는 지속해야 한다.

담당업무 : 생활가전, 건자재, 폐기물, 중소기업, 소상공인 등
좌우명 : 합리적인 사고

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.