조경식 과학기술정보통신부 제2차관이 29일 오후 서울 종로구 정부서울청사 본관 브리핑룸에서 ‘KT 네트워크 장애 원인분석 결과’ 관련 브리핑을 하고 있다. (제공: 과학기술정보통신부) ⓒ천지일보 2021.10.29
조경식 과학기술정보통신부 제2차관이 29일 오후 서울 종로구 정부서울청사 본관 브리핑룸에서 ‘KT 네트워크 장애 원인분석 결과’ 관련 브리핑을 하고 있다. (제공: 과학기술정보통신부) ⓒ천지일보 2021.10.29

원인 라우팅 오류… 보상안은 아직

시스템상 미흡한 부분도 지적돼

낮에 일한 이유, 야간작업 싫어서

[천지일보=손지아 기자] 과학기술정보통신부(과기정통부)가 지난 25일 정오를 한때 혼란케 했던 KT 인터넷 마비 사태의 원인을 ‘라우팅 오류’로 지목했다. 이와 함께 구조적 문제와 시스템 미흡이 부가적인 원인으로 꼽혔다.

29일 과기정통부는 25일 발생한 KT 네트워크 장애 사고와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반과 함께 원인을 조사·분석한 결과를 발표했다.

이번 KT 네트워크 장애사고는 25일 오전 11시 16분경부터 시작돼 DNS 트래픽 증가에 이어 네트워크 장애가 발생했고 낮 12시 45분경 KT의 복구조치가 완료돼 약 89분의 서비스 장애가 발생했다.

사고조사반은 이번 네트워크 장애사고의 원인을 파악하기 위해 ▲DNS서버에 발생했던 급격한 트래픽 증가가 분산서비스거부공격(DDoS, 디도스)이었는지 ▲라우팅 오류가 어떻게 발생했고 장애 확산이 됐는지 등을 면밀하게 분석했다.

◆‘디도스 공격’ 터무니 없는 구실

과기정통부는 KT가 사고 직후 원인으로 발표한 ‘디도스 공격’에 대해서는 전혀 가능성이 없음을 밝혔다.

다만 사고 발생 시각부터 KT DNS(도메인 주소를 IP 주소로 변환하는 역할을 수행) 서버에서 평시에 비해 트래픽이 급증했다. 중앙 1차 DNS(혜화)의 경우 평시 대비 22배 이상, 중앙 2차 DNS(혜화)는 평시 대비 4배 이상, 부산 DNS는 평시 대비 3.7배 이상 증가하는 등 큰 폭의 트래픽 증가가 나타났다. 통신 업계 관계자는 “(KT가) 트래픽이 급증한 것을 보고 빠른 브리핑을 위해 디도스 공격으로 추정 중이라고 발표한 것 같다”고 말했다. 

DDoS 공격은 ▲1개의 IP가 다량의 도메인 또는 비정상 도메인을 DNS 서버에 질의하는 시스템 자원 공격과 ▲대량의 네트워크 패킷을 DNS 서버에 전송해 서비스 대역폭을 채우는 네트워크 대역폭 공격의 두 가지 유형을 보이게 된다. 조사반은 유형별 해당 여부를 패킷, 트래픽 분석 등을 통해 조사했다.

첫째로 시스템 자원 DDoS 공격과 관련해 조사반의 패킷분석 결과, 당시 개별 IP의 DNS 질의는 최대 15개 이내 수준(중앙 1차 DNS 기준)으로 다량의 도메인 질의는 없었다. 통상 DDoS 공격 시 개별 IP에서 수백, 수천개의 질의가 발생한다.

네이버·다음 등 정상적인 도메인 질의 이력만 존재했고 존재하지 않는 비정상적인 도메인(예: abec.naver.com, q12jk.naver.com 등)의 반복적인 질의도 없었던 것으로 파악돼 시스템 자원 DDoS 공격은 없었던 것으로 분석됐다.

둘째로 네트워크 대역폭 공격과 관련해서는 트래픽 분석을 실시한 결과 중앙 1차 DNS서버 대역폭의 최대 8%, 부산 DNS 서버 대역폭의 28% 규모의 트래픽 유입만 있어서 대역폭 대비 충분히 수용 가능한 수준으로 네트워크 대역폭 공격은 아닌 것으로 판단됐다.

결론적으로 DNS 서버에 대한 트래픽 증가는 있었지만 시스템 자원 DDoS 공격 및 네트워크 대역폭 공격은 확인되지 않았다.

◆라우팅 오류가 뭐 길래 전국망이 마비돼?

진짜 원인은 라우팅 오류였다. 이번 사고 로그기록을 분석한 결과, 부산국사에서 기업 망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력했고 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석됐다.

라우팅 설정오류에 따른 장애발생 과정을 분석하면 다음과 같다. 인터넷 서비스가 제공될 때 PC·스마트폰 등 개인의 접속단말은 지역라우터, 센터라우터 등을 거쳐 국내외 네트워크로 연결되는데 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 다수의 라우터의 경로정보가 필요하다.

라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환(업데이트)하는 프로토콜을 사용하는데 KT 네트워크와 외부 네트워크 경로 구성에는 BGP 프로토콜을 사용하고 KT 내부 네트워크 경로 구성에는 IS-IS 프로토콜을 사용한다.

BGP(Boarder Gateway Protocol)는 외부 라우터와 경로정보를 주고받는 프로토콜로서 통상 수십만개 수준의 경로정보를 교환한다. IS-IS(Intermediate System to Intermediate System)는 내부 라우터 간 경로정보를 주고받는 프로토콜로서 통상 1만개 이하의 경로정보를 교환한다.

라우터는 이렇게 BGP, IS-IS 등 프로토콜을 통해 교환한 경로정보를 종합해서 최종 라우팅 경로를 설정하게 된다.

작업자의 작업내역을 확인한 결과 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락했다. 이로 인해 BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송됐다. 통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서 라우팅 경로에 오류가 발생하게 된 것이다.

이 오류는 다음과 같은 경로로 전국적으로 확산됐다. IS-IS 프로토콜 내의 라우터들은 상호 간의 정보 최신화를 위해 자동으로 데이터를 주고받는데 부산 지역라우터에 잘못된 라우팅 경로가 설정된 이후 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달됐다.

KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있고 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대됐다.

◆KT, 인력관리·기술 문제도 있었다

라우팅 오류 발생은 두 가지가 원인이었다. 첫째는 인력 관리 문제였다. 당초 KT 네트워크관제센터가 야간작업(01시~06시)을 승인했으나 작업이 주간에 수행되는 과정에서 장애가 발생하게 됐다. 또한 작업 관리자 없이 KT 협력업체 직원인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며 네트워크가 연결된 채로 작업이 이뤄졌다.

특히 통신 업계는 낮에 망과 관련된 작업을 통상적으로 하지 않는다며 이 부분에 의문을 품고 있다. 협력업체의 실수든 아니든 무언가 구조적인 문제가 있을 것으로 추정되는 이유다. 과기정통부의 조사 결과 당사자들로부터 야간에 일하기를 좋아하는 사람은 없다는 답변이 나왔다.

기술적인 문제도 있었다. 사전검증 단계에서 오류를 파악하지 못했다. 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 ‘exit’ 명령어가 누락됐으나 스크립트 작성과정 및 사전 검증 과정에서 발견하지 못했다. 1·2차에 걸친 사전검증 단계가 존재했으나 사람이 직접 검토하는 체계이기 때문에 오류를 발견하지 못했다.

또한 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했다.

◆정부·KT, 대책과 보상책 마련

향후 과기정통부는 이번 조사를 바탕으로 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 ‘네트워크 안정성 확보방안’을 마련할 계획이다. 네트워크 안정성 확보방안은 단기대책과 중장기대책을 포괄하는 방안이 검토될 예정이다.

KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진한다. 방송통신위원회(방통위)는 이용자 피해구제 방안 이행 여부를 점검할 예정이다. 또한 통신장애 발생 시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.

[천지일보=남승우 기자] 구현모 KT 대표가 28일 서울 종로구 KT혜화타워(혜화전화국) 앞에서 지난 25일 발생한 KT의 유·무선 인터넷 장애와 관련해 취재진 질문에 답변하고 있다. (제공: KT) ⓒ천지일보 2021.10.28
[천지일보=남승우 기자] 구현모 KT 대표가 28일 서울 종로구 KT혜화타워(혜화전화국) 앞에서 지난 25일 발생한 KT의 유·무선 인터넷 장애와 관련해 취재진 질문에 답변하고 있다. (제공: KT) ⓒ천지일보 2021.10.28
천지일보는 24시간 여러분의 제보를 기다립니다. 제보하기
저작권자 © 천지일보 무단전재 및 재배포 금지