‘운영 및 관리도구’를 데이터센터 간 액티브-액티브 등 매우 높은 수준의 다중화 적용 등 요구
[매일일보 박효길 기자] SK㈜ C&C 판교 데이터센터 화재에 따른 카카오 서비스 먹통 사태에서 정부 조사결과 카카오가 1개 데이터센터 전체가 일시에 불능에 대해 대비가 부족한 것으로 나타났다.
과학기술정보통신부는 방송통신위원회, 소방청과 함께 6일 지난 10월 15일 발생한 SK㈜ C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표했다.
카카오 계열사의 주요서비스 최대 127시간 33분간 장애가 발생했다. 카카오는 서비스 기능을 애플리케이션, 서비스 플랫폼, 운영 및 관리도구, 데이터베이스, 인프라 설비 레이어 등 5개의 레이어로 구분하고 판교 데이터센터(액티브 역할)와 기타 센터 간 동작(액티브)-대기(스탠바이) 체계로 이중화했으나, 이번 사고 시 스탠바이 시스템이 제대로 동작하지 못했다.
서버를 액티브로 만들기 위한 권한관리 기능인 ‘운영 및 관리도구’가 판교 데이터센터 내에서만 이중화돼있을 뿐 타 데이터센터에 이중화돼있지 않아, 판교 데이터센터의 액티브 서버 작동 불능 시 서비스 장애 복구가 지연됐다.
또한,‘애플리케이션’, ‘서비스 플랫폼’ 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화돼 있지 않아 복구에 상당 시간이 소요된 원인이 됐다.
카카오톡, 다음 등 카카오 서비스 대부분의 핵심기능이 판교 데이터센터에 집중돼 있어 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받게 됐다.
특히, 여러 서비스의 구동 초기단계부터 필요한 ‘카카오인증’과 같은 핵심기능도 판교 센터에 집중돼, 여러 서비스 전반에 광범위한 영향을 미친 원인이 됐다.
카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의하고 있으나, 각 단계별 체계화 및 자동화가 미흡했다. 예를 들어 사내 전파 수단 준비 미흡, 이용자 공지채널(트위터, 페이스북)의 낮은 접근성 등이다.
일부 서버, 네트워크 등 오류에 대비한 재난 대비 훈련 등 조치는 했으나, 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해서는 대비가 부족했다.
카카오는 10월 19일부터 11월 6일간 10만5116건의 피해를 접수했으며, 이중 유료 서비스에 대한 피해는 1만4918건, 금전적 피해를 언급한 무료 서비스는 1만3198건이 접수됐다.
이에 정부는 카카오에 △카카오 서비스 장애 복구 지연의 핵심 원인인 ‘운영 및 관리도구’를 데이터센터 간 액티브-액티브 등 매우 높은 수준의 다중화 적용 △메신저의 메시지 수발신 등 핵심 기능에 대해서는 우선순위, 중요도 등을 고려해 현재보다 높은 수준의 분산 및 다중화를 적용할 수 있는 방안 수립 △데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련 계획을 수립하고 모의 훈련을 실시해 보고 △신속한 장애 복구를 위해 서비스별 복구목표 설정, 상시 대응조직 구성, 장애 시나리오별 복구방안 수립 △장애 탐지-전파-복구 전(全) 단계의 복구체계를 재점검하여 자동화 기능 요소 발굴 등 개선방안 수립 △서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계 구축 △이번 장애와 관련된 국민 피해를 구제하기 위한 원칙과 기준을 설정하고, 보상 계획을 수립 등을 요구했다.