이커머스 업체의 클라우드는 이렇게 운영한다 – G마켓-옥션 김순석 실장을 만나다

IT 인프라 분야를 지배하고 있는 키워드는 바로 ‘클라우드’입니다. 개인 데이터도 기기 대신 각종 클라우드 서비스에 업로드하여 관리한 지 오래되었죠. 기업 분야에서도 클라우드 활용이 이제는 옵션이 아닌 필수가 됐습니다.

G마켓, 옥션은 최근 ‘하이브리드 클라우드 Hybrid Cloud’ 운영을 본격화했습니다. 특히 G마켓-옥션의 클라우드 환경은 국내 이커머스 중에서도 최대 규모라고 하네요.
하지만 이처럼 IT 인프라 분야에서 대세로 자리 잡고 있는 하이브리드 클라우드가 정확히 무엇인지, 그리고 왜 필요한지 모르는 분들도 많을 텐데요.

G마켓-옥션 김순석 사이트옵스(SiteOps) 실장을 만나 이야기를 들어보았습니다.


간단하게 소개 부탁드립니다.

옥션, G마켓, G9 서비스를 유지하기 위한 IT 인프라의 운영 총괄을 담당하는 사이트옵스(SiteOps)소속 김순석입니다. 하는 일이 전형적인 IT 지원 업무이다 보니 해도 해도 끝이 없고, 별로 티가 나지 않죠. (웃음)

지금까지 어떤 일을 해오셨는지?

2000년대 초부터 서버 및 IT 인프라 운영에 관심을 가지고 쭉 그 분야의 업무를 담당해 왔습니다. 처음에는 웹 호스팅 기업에서 시작해서, 이후 엔씨소프트에서 12년간 근무했죠. 특히 2015년 엔씨소프트에서 아마존 클라우드 컴퓨팅 서비스인 AWS를 도입하고 데이터 센터와의 연동으로 하이브리드 클라우드 인프라를 구축했던 경험이 있습니다.

2017년 이베이코리아에 입사한 후, 4개로 분산되어 있어 비효율적이던 데이터센터를 2개로 줄였는데요. 비용은 절감하면서 동시에 장애 포인트도 줄였습니다. 사실 한 데이터센터를 다른 센터로 이전하는 기간을 당초에는 3년으로 계획했었어요. 내부-외부 도메인을 합쳐 5천 개가 넘는 거대한 서비스를 짧은 시간 내에 이전하는 것은 이커머스 환경에서는 거의 불가능에 가깝기 때문입니다. 하지만 이 기간을 5개월로 단축하여, 연간 co-location 비용을 1/3로 줄일 수 있었습니다.

게임사와 이커머스를 비교했을 때 업무에 어떤 차이점이 있는지?

게임회사의 서버 운영과 이커머스의 운영에는 상당한 차이가 있습니다. 게임을 하다가 어떤 이유로 네트워크가 끊어지면 다시 접속해야 합니다. 게임에서는 이런 일시적인 네트워크 중단이 유저에게 상당한 손해가 될 수 있다 보니, 고객들의 클레임이 굉장히 많이 들어옵니다. 하지만 웹 기반의 서비스는 어느 한 서버에 문제가 발생하면 다른 쪽으로 네트워크 트래픽을 우회하면 됩니다. 즉, 서비스의 연속성을 유지하기에는 게임보다 웹 기반의 이커머스가 훨씬 스트레스를 덜 받습니다.

그래서 여기 입사했을 때, 웹이니까 운영은 아주 수월할 거라는 예상을 했었죠. 그 예상이 깨지는 데엔 그리 오래 걸리지 않았습니다. 5천 개가 넘는 서브도메인이 있고, 서비스가 복잡해서 절대 간단하게 대처할 수 있는 문제가 아니었죠. 물론 최근에는 하이브리드 클라우드 도입으로 더 안정적인 서비스가 가능해졌습니다.

하이브리드 클라우드는 무엇인지?

하이브리드 클라우드는 클라우드를 구축할 때 외부 인프라를 이용하는 퍼블릭 클라우드 Public Cloud, 자체 인프라를 활용하는 프라이빗 클라우드 Private Cloud, 기업 내에서 서버를 설치 및 운영하는 온프레미스 On-premise가 조합된 환경을 말합니다.

예전엔 물리적인 데이터센터를 운영하면서, 자체 인프라인 프라이빗 클라우드를 활용해 왔습니다. 하지만 최근에는 퍼블릭 클라우드를 제공하는 AWS, Azure, GCP와 같은 서비스가 대거 등장했습니다. 퍼블릭 클라우드를 이용하면 서버를 유동적으로 늘리거나 줄일 수 있어서, 데이터센터의 운영 효율을 높일 수 있기 때문에 요즘은 이런 서비스를 이용하는 경우가 많죠.

G마켓-옥션의 하이브리드 클라우드는 어떻게 구축되었는지?

(클라우드 엔지니어링팀의 화상 회의 모습)

서버의 규모가 커질수록 데이터센터 공간도 늘어나야 하고, 관련된 각종 시스템 리소스가 증가할 수밖에 없습니다. 이렇게 거대한 물리 서버를 효율적으로 운영하기 위해, 서버가상화가 필요했는데요. 서버가상화를 위해 여러 Hypervisor 솔루션 중 VMware를 선택하여 도입하였습니다.

전체 서버의 60%를 가상서버로 전환했기 때문에 개발자에게 신속한 서버를 제공할 수 있었고, G마켓과 옥션 고객의 요구에도 빠르게 대응할 수 있습니다. 물리 서버 수량이 감소했기 때문에 코로케이션 비용과 전력 사용도 줄일 수 있었죠.

또한 MS의 퍼블릭 클라우드인 애저(Azure)를 도입하였는데요. 기업 내에서 서버를 설치 및 운영하는 온프레미스(On-premise)와 애저(Azure)를 연동하여 유연하고 신축성 있는 데이터센터 인프라를 구축하였습니다. 긴급하게 서버 증설이 필요할 때, 애저(Azure)를 활용해 신속한 서버 증설(scale-out)이 가능해졌죠. 반대로 서버가 필요 없을 때는 줄여서(scale-in) 전체 서비스 구현에 드는 비용을 효율적으로 관리할 수 있습니다.

향후에는 비용 효율성을 고려하고, 상황에 맞게 애저(Azure)뿐 아니라 다른 퍼블릭 클라우드 서비스를 선택적으로 사용할 수 있는 멀티 클라우드 인프라를 구축할 계획을 갖고 있습니다. 그리고 SDN과 NFV와 같이 네트워크를 가상화하여 온프레미스(On-premise)와 퍼블릭 클라우드를 연결하여 하이브리드 클라우드 환경을 구축할 계획입니다.


G마켓과 옥션이 하이브리드 클라우드를 사용하는 이유는?

현재의 데이터센터를 활용하면서 시스템 리소스를 유연하게 사용하기 위함입니다. 긴급하게 서버가 필요하거나 일정 기간에 서버가 필요할 때, 퍼블릭 클라우드를 이용함으로써 비용을 절감하고 운영의 효율을 높일 수 있습니다.

특히 시스템 장애가 발생하였을 때 하이브리드 클라우드가 있다면 서비스가 중단되지 않도록 할 수 있기 때문에 더욱 중요합니다. 얼마 전 전국적인 ‘인터넷 먹통 사태’를 불러일으켰던 KT의 라우팅 문제로 인한 서비스 장애처럼, 흔치 않지만 한번 발생하면 대형 사고로 이어질 수 있는 장애를 피하기 위해, 데이터센터와 퍼블릭 클라우드를 잇는 환경이 필요합니다.

물론 단점도 있습니다. 퍼블릭 클라우드를 이용한다는 건 우리가 가진 데이터가 남의 공간에 있다는 의미입니다. 마치 내 돈을 은행에 맡겨 놓았을 때처럼, 분명 내 소유지만 지금 내가 가지고 있지는 않죠. 그래서 보안상의 우려가 있을 수 있습니다. 그래서 중요한 자료는 데이터센터에 두고, 나머지 데이터만 퍼블릭 클라우드에 두고 있죠.

타 업종이나 기업에서도 하이브리드 클라우드를 사용하고 있는지?

이커머스 업계에서 G마켓-옥션만큼 인프라 환경이 좋은 곳은 없을 겁니다. 다른 이커머스 기업 중에서 하이브리드 클라우드와 데이터센터를 보유한 곳은 거의 없습니다.

타 업종에서는, 데이터센터를 보유하고 있는 기업들이 운영 효율성과 비용 절감을 위해 점차 퍼블릭 클라우드를 함께 이용하는 추세고, 데이터센터를 이용하지 않는 업체에서는 한 곳만 사용하기에는 리스크가 크기 때문에 다양한 퍼블릭 클라우드를 활용하는 추세입니다.


국내 하이브리드 클라우드 구직 시장의 현황은?

앞으로도 클라우드 엔지니어 수요는 지속적으로 늘어날 것으로 봅니다. 데이터센터의 운영 인력은 날로 증가할 것이기 때문이죠.

(Source: MarketsandMarkets Research Private Ltd)

G마켓-옥션 역시 현재 데이터센터를 활용하면서 클라우드도 운영하고 있는데 이를 잘 운영할 인력이 더 필요한 상황입니다. 그래서 내년에도 추가 인력을 채용할 계획이고요.

마지막으로 IT 인프라 분야에 도전하고자 하는 분들에게 이야기해주고 싶은 게 있다면?

세일즈, 마케팅, 개발 분야와는 달리, IT 인프라 운영은 장애 없이 서비스 연속성(downtime zero)을 유지하는 업무이기 때문에 평상시에는 잘 눈에 띄지 않습니다. 다른 부서들의 뒤에서 보이지 않게 서포트하는 것이 바로 IT 인프라 부서의 역할이죠.

하지만 IT 인프라 운영이 잘 이루어지지 않는다면 바로 모든 서비스가 삐걱거리게 됩니다. 이처럼 IT 인프라 운영은 모든 서비스의 기초 중의 기초인 만큼 그 중요성은 이루 말할 수 없죠. IT 인프라 운영이라는 업무를 하기 위해서는 이런 자부심이 어느 정도 있어야 견딜 수 있습니다. (웃음)

기존의 전통적인 시스템 엔지니어링 역량으로는 빠르게 변화하고 있는 데이터센터 변혁 요구에 대응하기 어렵습니다. 클라우드는 서버, 네트워크, 스토리지를 다 다루는 기술이기 때문에 배워야 할 것이 매우 많습니다. 거기에 Python, Java, Javascript, PHP, R, C, C++과 같은 각 서비스에 맞는 각종 프로그래밍 언어도 습득해야 하고, (Cloud) security, Database, Big Data 나아가 ML/DL, AI 분야까지 망라하고 있기 때문에 무궁무진한 배움의 길이 펼쳐져 있죠.

이처럼 IT 인프라 운영 분야에서 요구하는 역량은 날로 변화하고 있기 때문에, 어떤 능력이 필요한지 늘 모니터링 하는 습관이 있어야 합니다. 또, 그에 맞게 자신만의 커리어를 만들어나가야 하죠.

끝없는 배움에 도전하는 열정과 서비스의 기초를 책임진다는 자부심, 이 두 가지가 미래의 IT 인프라 개발자에게 반드시 있어야 할 마음가짐이라고 생각합니다.​