즐겨찾기+ 최종편집:2025-05-13 오후 01:01:56 회원가입기사쓰기전체기사보기
전체 정치·경제·사회 지자체·공공기관 국방·안보 교육 건강·환경·안전 글로벌(외신) 문화·예술 연예·스포츠
뉴스 > 정치·경제·사회

카카오의 오만과 안이한 결과…˝데이터센터 전체 문제 발생 상황 가정했더라면...˝

이확영 원인조사 소위원장, 카카오 먹통 원인 분석 결과 발표
데이터센터간 이중화 부족…"데이터 자동 전환 시스템도 판교에만"
인력 부족·소통 부재·복구 지휘 전방위적 문제…"더 높은 목표로 노력해야“
데이터센터 간 이중화·관리도구 이중화 등 모두 미흡…자원 자체도 부족
인력 부족으로 복구 시간 지연 불가피…사고 이후 내부 소통·지휘도 안돼
일부 시민, “독점체제에서의 오만과 안이한 결과다” 비판의 목소리 나와..

옴부즈맨 기자 / ombudsmannews@gmail.com입력 : 2022년 12월 07일 12시 50분
↑↑ 판교 카카오 사옥 전경(사진 = OM뉴스)
ⓒ 옴부즈맨뉴스

[성남, 옴부즈맨뉴스] 김홍식 취재본부장 = 카카오가 지난 10월 발생한 서비스 먹통 사태 이후 복구가 지연된 원인으로 이중화 및 위기 대응 과정이 전혀 준비되지 않는 것으로 확인되었다.

데이터센터 간 이중화, 서비스 운영 관리 도구 이중화, 이중화 전환 후 가용 자원 부족 등의 문제로 복구에 턱없이 긴 시간이 소요 됐기 때문이다.

이확영 카카오 비상대책위원회 원인조사 소위원장(그렙 공동 CEO)은 7일 오전 11시 개최된 개발자 콘퍼런스 ‘이프 카카오 데브 2022(if kakao dev 2022(이프 카카오)에서 "카카오 장애원인 분석 결과 이중화와 위기 대응 과정에 상당 부분 미흡함이 있었던 것으로 드러났다"고 밝혔다.

이 소위원장은 지난 10월15일 SK C&C 판교 데이터센터 화재 사고로 인한 카카오 서비스 장애의 원인을 보다 객관적으로 규명·공유하기 위해 외부 인사로서 카카오 비상대책위원회 원인조사 소위원장을 맡았다.

이 소위원장은 카카오 서비스의 장애가 길어진 주요 원인으로 '이중화 조치'를 꼽으며 ▲데이터센터 간 이중화 미흡 ▲서비스 개발과 관리를 위한 운영 관리 도구 이중화 미흡 ▲이중화 전환 후 가용 자원 부족 등이 뼈아팠다고 설명했다.

이번 화재 사고와 같이 데이터센터 전체에 문제가 생길 경우 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠르게 복구가 됐을텐데, 카카오는 일부 시스템이 판교 데이터센터 내에서만 이중화돼 있어서 장애 복구가 늦어졌다. 대표적으로 카카오 로그인 및 카카오톡 사진 전송 기능 등에 사용되는 캐시서버, 오브젝트 스토리지 등이 판교 데이터센터에만 설치되어 있어 복구가 지연됐다.

아울러 서로 다른 데이터센터에 이중화가 되어 있는 경우에도 하나의 데이터센터에서 장애가 발생하면 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야 하는데, 이 시스템마저 판교데이터 센터에만 설치되어 있었던 것으로 파악됐다. 이로 인해 전환 작업을 수동으로 진행하면서 복구가 더 늦어지게 됐다.

또 이 소위원장은 카카오가 운영 관리 도구를 확실하게 이중화하지 않는 등 안정성 확보에 소홀했다고 설명했다. 이에 대해서는 "컨테이너 이미지를 저장하고 관리하는 시스템이나, 일부 모니터링 도구 등을 화재 여파로 사용할 수 없게 돼 복구에 상당한 어려움을 겪었다"고 했다.

이중화 전환 후 가용 자원도 부족한 것으로 분석됐다. 사고로 인해 판교 데이터센터가 마비됐을 경우 해당 센터 전체를 대신할만큼의 가용 자원이 확보돼 있어야 하는데, 카카오는 가용 자원 부족으로 판교 데이터센터의 전원이 들어와서 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다.

이 소위원장은 "전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라가기 때문에 개별 시스템의 미흡한 이중화가 전체적인 장애를 유발한 것"이라며 "개별 부서나 시스템마다 다른 이중화 수준 및 체계, 부족한 상면 등으로 문제가 생기지 않도록, 회사 차원에서 체계적인 이중화를 준비했어야 한다"고 꼬집었다.

이중화 외에 카카오의 전반적인 위기 대응 체계의 부족함도 장애를 빠르게 해결하지 못한 원인이 됐다. 이 경우 ▲장애 복구를 위한 인력·자원 부족 ▲장애 대응을 위한 커뮤니케이션 채널 혼선 ▲재해 초기 컨트롤 타워 부재 등이 대표적이다.

원인 분석 결과 카카오는 운영 관리 도구 복구 인력도 부족했으며, 특히 이중화에 필요한 상면의 부족이 가장 치명적이었던 것으로 나타났다. 아무리 이중화나 장애 대응 체계를 갖추고 있다 하더라도 이번 사태처럼 데이터센터 전체 장애가 발생하면 인력·자원 부족으로 제대로 대응할 수 없었을 것이라는 설명이다.

카카오가 사내 커뮤니케이션 및 모니터링을 위해 활용 중인 카카오톡·카카오워크를 대체할 채널이 없었다는 점도 문제가 됐다. 이에 대해 이 소위원장은 "해당 채널을 쓸 수 없을 때 중요 사항 전파 및 의사결정을 위한 커뮤니케이션 채널이 준비되어 있고, 일상적으로 사용되고 있었어야 한다"고 지적했다.

먹통 사태가 발생했던 초기 복구를 비롯한 대응책을 총괄할 컨트롤타워도 없었다. 사고 당시 카카오와 공동체, 개별 조직들은 동시 다발적으로 장애에 대응한 것으로 알려졌다. 결국 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 세팅돼 있지 않아 개별 서비스 개발자들이 복구에 총력을 기울인다 해도 복구가 지연될 수밖에 없었다는 분석이다.

이 소위원장은 "카카오는 많은 이들의 아픈 경험으로부터 알게 된 것을, 진중하게 받아들여야 할 것"이라며 "앞으로 다시는 같은 일이 발생하지 않도록, 카카오의 모두가 끊임없이 노력하리라 믿는다. 시스템이 완벽할 수 없더라도 전보다 더 높은 목표를 두고 노력하고, 그 노력을 통해 카카오의 서비스들이 신뢰를 회복해 다시금 사용자들에게 사랑받는 서비스가 됐으면 좋겠다"고 말했다.

한편 카카오를 이용하는 시민들의 반응 또한 쓴소리를 내 놓았다.

서울 신당동의 한 시민은 “카카오가 독점체제로 운영되기 때문에 평소에도 오만하고, 고객서비스에서 갑질행위가 많았다”며 “카카오와 대체하는 회사가 나왔으면 좋겠다”는 불만섞인 의견을 내놓았다.

또 일산에 거주한다는 한 시민 역시 “카카오가 상당히 교만할 뿐 아니라 장사 속을 내비치며 이런 저런 이유로 고객들을 상당히 괴롭혀 왔다”는 비판도 나왔다.
옴부즈맨 기자 / ombudsmannews@gmail.com입력 : 2022년 12월 07일 12시 50분
- Copyrights ⓒ옴부즈맨뉴스. 무단 전재 및 재배포 금지 -
트위터페이스북밴드카카오스토리네이버블로그
이름 비밀번호
개인정보 유출, 권리침해, 욕설 및 특정지역 정치적 견해를 비하하는 내용을 게시할 경우 이용약관 및 관련 법률에 의해 제재를 받을 수 있습니다.
 
포토&동영상
가장 많이 본 뉴스
아고라
OM인물
회사소개 광고문의 제휴문의 기사제보 개인정보취급방침 윤리강령 고충처리인제도 찾아오시는 길 청소년보호정책 모바일
상호: (주)옴부즈맨뉴스 / 주소: 경기도 고양시 일산서구 덕산로 277번길 51-21 / 발행인: 김형오. 편집인: 김호중 / 청소년보호책임자 : 김형오
mail: ombudsmannews@gmail.com / Tel: 02)3147-1112, 1588-4340 / Fax : 02) 364-3130 / 정기간행물 등록번호 : 경기,아51175 / 등록일2015-02-25
Copyright ⓒ 옴부즈맨뉴스 All Rights Reserved. 본지는 신문 윤리강령 및 그 실요강을 준