전 세계 100만 명 참여한 ‘캐글’ 대회… 국내 단 3명뿐인 그랜드마스터를 달성하다, AI팀 김상훈

이베이코리아에서는 물류 센터의 효율적인 운영과 자동화, 소비 행동 패턴 기반의 소비자 성향 추정, 판매 제품과 광고 상품의 연관성 증대 및 이상 거래 탐지 등 다양한 분야에서 폭넓게 인공지능(AI)을 활용하고 있다.

최근 이베이코리아 AI팀 김상훈 매니저가 구글이 소유하고 있는 세계 최대 온라인 AI 경진 플랫폼, ‘캐글(Kaggle)’에서 1년이라는 짧은 기간 안에 최상위 연구자(그랜드마스터)로 선정됐다.

김상훈 매니저를 만나 대회 준비 과정과 최근 AI 트렌드에 관한 다양한 이야기들을 들어 보자!

 10년 전부터 머신러닝에 관심…다양한 연구, 개발에 참여

안녕하세요. 저는 이베이코리아 AI Lab실의 AI Platform팀에서 근무하는 김상훈입니다. 저는 전자공학부를 전공하고, 10년 전 대학원 시절부터 중점적으로 머신러닝(Machine Learning)을 접하여 연구하기 시작했습니다. 컴퓨터 비전(Computer Vision) 분야의 얼굴인식(Face Recognition)이 연구 주제였지만, 회사 생활을 하면서 자연어 처리(Natural Language Processing) 같은 다른 분야에도 관심을 가지게 되었어요. 이베이코리아 직전 회사에서는 딥러닝(Deep Learning) 기술로 (구글 번역기 같은) 기계 번역기를 만드는 일이나 어울리는 옷을 찾아주는 패션 아이템 추천 기술 등을 개발해 온 데이터과학자(Data Scientist)이기도 합니다.

데이터과학(Data Science)과 머신러닝의 관계를 헷갈려 하시는 경우도 있는데요. ‘데이터과학자가 사용하는 다양한 툴 중에 가장 보편적으로 많이 쓰이는 것이 머신러닝이다~’ 라고 생각하시면 이해가 쉬우실 것 같아요.

 비전공이었던 정형 데이터 배우려 캐글(Kaggle) 참가

캐글은 구글이 소유하고 있는 세계에서 가장 유명한 온라인 인공지능(AI) 경진대회 플랫폼입니다. 현재 194개국 100만 명 이상이 참여하는 것으로 알고 있어요. 세계 각지의 기업이나 기관이 풀고 싶은 과제와 데이터를 캐글 플랫폼에 등록해 경진대회를 개최합니다. 1년에 평균 30개 정도의 대회가 열리는데, 경진대회가 시작되면 전 세계의 데이터과학자들이 경진대회에 참가해 문제를 푸는 방법을 놓고 경쟁하게 됩니다.

이베이코리아에 처음 왔을 때부터, 머신러닝 중에서도 이미지나 텍스트 같은 비정형(unstructured data) 데이터를 다루는 기술은 어느 정도 알고 있었습니다. 그런데 테이블화할 수 있는 데이터를 지칭하는 정형 데이터(structured data)를 다루는 기술은 잘 몰랐었죠. 마침 캐글에는 정형 데이터를 다루는 대회가 많이 열리고 있었고, 그래서 정형 데이터를 다루는 기술을 배우기 위해 캐글에 참여하게 되었습니다.

 악성 댓글 차단, 교육용 앱 개발, 난치병 진단, 신약 개발, 기후 예측 등… AI 적용 분야 무궁무진

캐글은 대회 참가자들의 동기부여를 위해서 티어(등급) 시스템과 랭킹 시스템을 도입했습니다. 참가자가 상금뿐만 아니라 명예도 얻을 수 있도록 한 거죠. 티어는 획득한 메달 종류와 개수로 정해지고 랭킹은 대회마다 얻은 포인트(순위가 높을수록 큰 포인트 획득)의 총합으로 결정됩니다.

우선 티어를 보면, 경진대회 순위별로 금, 은, 동메달이 주어지는데 금메달은 1,000팀 이상 참가한 대회에서 10위 내에 들면 딸 수 있고, 은메달은 상위 5% 내에 들면 되고, 동메달은 상위 10% 내에 들면 딸 수 있습니다. 획득한 메달의 종류와 개수에 따라서 초보 → 전문가 → 마스터 → 그랜드마스터 순으로 티어가 올라가요.

그랜드마스터는 금메달을 5개 따는 게 조건입니다. 그러니까 최소 5번의 대회에서 금메달을 따야 해요. 그런데 특히 까다로운 조건이 있습니다, 바로 5개 중 1개의 금메달은 솔로로 대회에 출전해 따야 한다는 거죠… 2~5명으로 구성된 팀들과 홀로 경쟁해야 하니 정말 쉽지 않은 조건입니다. 그래서 만년 마스터인 분들이 꽤 있어요. 캐글에 도전하고자 하시는 분들을 위해 제가 금메달을 수상했던 대회 중 몇 가지를 소개해 드릴게요.

구글의 Jigsaw/Conversation AI 조직에서 주최한 대회에서는 댓글의 악성 여부를 판단하는 기술력을 겨루었죠. 최근 자연어처리 분야에서 유명한 딥러닝 모델들인 BERT, GPT2, XLNET 등을 활용했고, multi-task learning(학습 목표를 다양하게 두는 방법)을 고안해 3,165팀 중에서 2등을 했습니다.

미국의 Booz Allen Hamilton 기업이 주최한 정형 데이터 대회도 있었어요. KIDS Measure Up! 이라는 교육용 앱이 있는데, 이 앱을 이용했던 아동의 과거 히스토리를 보고 해당 아동의 향후 성취도를 예측하는 대회였습니다. 정형데이터 대회는 보통 트리 기반 기법이 사용되는데 저는 자연어처리에서 사용되는 TRANSFORMER라는 기술을 이 대회에 적용해 3,497팀 중 3등의 성적을 냈습니다.

호주의 APTOS(Asia Pacific Tele-Ophthalmology Society)라는 협회 주최의 대회도 기억나네요. 실명 원인 중 높은 비중을 차지하는 당뇨병성 망막병증(Diabetic Retinopathy)이라는 질환을 빠르게 진단할 수 있는 머신러닝 기술을 개발하라는 주제가 참신했어요. 이외에도, 신약 후보 물질 연구를 위해 널리 사용되는 화합물의 양을 머신러닝 모델로 예측하는 기술력을 겨루거나, 기후 연구를 위해 위성으로 찍은 구름 사진에서 특정한 모양을 찾아내는 데 딥러닝 기술을 적용해 보기도 했었네요. 이렇게 보니 AI가 적용되는 분야가 정말 다양한 것 같습니다.

현재 그랜드마스터는 전 세계에 180명, 국내에는 3명이 있습니다.

제게 가장 큰 동기부여가 됐던 건 이러한 경쟁 시스템입니다. 50등만 되어도 제 프로필 순위가 게시판에 보이기 시작해요. 그럼 보이는 순간부터 더 열심히 하게 되죠. 왜냐하면 등수가 떨어지면 가슴이 막 아프니까…(ㅎㅎ) 그래서 원래 엄청나게 집중하는 스타일은 아니었던 것 같은데, 대회 할 때만큼은 집중하게 되더라고요. 등급 떨어지는 게 막 보이니까… 물론 회사에서는 회사 업무 열심히 잘했고요…. (하하)

 자유로운 이베이코리아 문화… 개발 역량 키우는데 큰 도움

이베이코리아에는 지인의 추천으로 약 1년 6개월 전에 입사하게 되었습니다. 제가 근무하는 AI팀에는 이커머스나 금융권, 대기업 등에서 주로 머신러닝을 경험하셨던 다양한 출신의 개발자분들이 계십니다. 저는 주로 상품에 잘못 매칭된 카테고리를 바로잡는 카테고리 추천 기술과 고객의 이탈을 사전에 감지, 예방할 수 있도록 돕는 고객 이탈예측 기술 개발 등의 업무를 하고 있습니다.

이베이코리아의 수평적인 기업 문화는 개발 능력 향상에 많은 도움이 됩니다. 업무와 관련된 의견들을 자유롭게 개진하고 새로운 아이디어를 낼 수 있는 분위기가 개발에 더 집중할 수 있는 환경을 만들어 주는 것 같습니다. 출퇴근 시간을 자유롭게 조정할 수 있는 유연근무제도 있고, 필요한 경우 재택근무도 시행하죠.

올해에는 업무에 머신러닝을 활용하고 싶어도 마땅한 가이드가 없어 어려움이 있었던 분들을 위해 저희 팀에서 만든 AI 서비스를 API로 제공해서 사내 다른 부서에 계신 분들이 쉽게 사용할 수 있도록 가이드를 제작할 예정입니다.

 국내 AI 시장에도 많은 투자 있어야, 커머스 분야 활용도 늘 것

우리나라의 AI 관련 논문 수나 관련 회사 숫자를 보면 우리나라가 AI 분야에서 앞서 있다고 말하긴 어려울 것 같습니다. 그게 캐글에서도 보이는 것 같아요. 캐글 그랜드마스터가 일본 10여 명, 중국 30여 명, 미국 30여 명 정도 되는데 우리나라는 아직 3명 정도 밖에 없으니까요. 캐글이 각 국가의 AI 경쟁력 지표가 된다는 이야기도 있는 만큼, 국내에서도 더욱 적극적인 투자가 뒷받침된다면 좋을 것 같습니다.

저는 앞으로 이커머스 분야에서도 인공지능이 더 폭넓게 활용될 거라고 봅니다. 다양한 상품들에 대한 ‘수요 예측’ 등이 대표적이죠. 최근 캐글에서 월마트의 판매량 예측과 관련한 대회를 개최한 적도 있었는데, 이커머스의 데이터 특성상 수요 예측이 상당이 힘든 분야입니다. 앞으로 조금 더 정교한 예측 모델이 개발된다면 이커머스 업계가 판매량 예측을 통한 물류/재고 관리 등에 큰 도움을 받으리라 생각합니다.

 후배 개발자들…개발 역량뿐 아니라 비즈니스에 대한 이해 키우길!

데이터 과학자는 고유 업무인 데이터 모델링, POC(Proof of Concept, 개념 증명)를 위한 클라이언트 개발 능력이 물론 중요하지만, 비즈니스에 대한 전반적인 이해도를 높이기 위해 노력하는 자세가 중요하다고 봐요. 회사 차원에서 프로젝트를 진행하려면 다른 부서와의 협업 능력, 설득력 있는 커뮤니케이션 역량 등이 많이 요구되는 것 같습니다.

저도 앞으로 꾸준히 이베이코리아의 AI 기술발전에 기여하기 위해 노력할 생각이고요. 내년에는 저보다 먼저 캐글 그랜드마스터가 되신 분과 함께 캐글에서 얻은 경험을 책을 써보려는 계획도 갖고 있어요. 제 작은 경험이 앞으로 캐글이나 AI 분야에 도전하고자 하는 분들께 조금이나마 도움이 되었으면 합니다.