본문 바로가기

다양한 리뷰

NC Dinos 송민구 과장 강연 (2018.11.30 데이터분석 강연)



00. 들어가기 앞서 Prologue



 우연한 기회에 본 강연을 들을 수 있었다. 재학중인 대학교에 NC Dinos에서 데이터 팀(투구 추적 시스템 관련) 현업에서 일하고 계신 송민구 과장님이 강연을 해주러 오셨다. 'Data driven manager' 라고 스스로 소개를 했으며, 다양한 분야에서 데이터 분석이 적용될 수 있다는 점을 배울 수 있어서 매우 좋은 시간이였다. 더하여, 말 주변이 상당하셔서 한 시간 정도 되는 시간동안 전혀 지루하지 않게 얘기에 집중할 수 있었다. (본 문 내용의 다수는 강연해주신 송민구 과장님의 강연 내용의 기반으로 서술된다.)


주로 다음과 같은 일을 하고 있다고 했다.

- 외국인 선수영입

- 전력분석 예측모델링 개발(성장 가능성, 가격 대비 능력(?))

- 선수 교과평가 (연봉 기준자료로써 활용되기도 한다고 함.)


 그리고 전반적으로, 합리적이고 체계적인 의사결정에 있어서 근거 자료로써 데이터들이 주로 활용된다고 한다. 실제로 데이터 분석가라는 게 드라마틱하게 데이터를 보고 우아하게 의사결정을 하는 사람이 아니다. 기업 혹은 업무에 있어서 데이터를 기반으로 보고서를 작성하고 의사결정에 도움을 주는 자료를 만드는 사람에 가깝다.



02. 주요 내용 Contents



 여러 꼭지로 강연이 진행됐다. 각 주제 별로 강연내용을 토대로 내용을 작성하고자 한다. 부분부분 개인의 해석이 덧붙여져 있으며, 전문을 옭겨 담는 건 아니지만 문제가 될 시에는 연락을 주시면 수정하도록 하겠습니다.


주로 처리하는 데이터

 강연자 분이 주로 처리하는 데이터는 PTS(Pitch Tracking Data)라고 하는 투구 추적시스템이라고 한다. 대외 발간자료를 보면 투구 추적시스템 전문가라고도 소개되고 투구 추적시스템 분석가 등으로 소개되기도 한다. 투구의 궤적이나 위치를 추적하고 이를 기반으로 데이터 분석을 진행한다고 한다. 이게 또 웃긴 게 데이터가 많다고 하더라도 구종이나 상대한 선수 등을 기준으로 나누면 선수 별 데이터는 몇 개 남지 않는다고 한다. 역시나 어디서든 양질의 빅데이터를 구하는 게 큰 이슈인 듯 하다. 풀타임 선발하는 선수들은 데이터가 많다고 한다.


 (이전에는 그도 현장에 방송국 차가 와서 현장에서 하나하나 프레임을 그렸다고 한다. 요즘엔 방송국과 시스템을 백엔드로 연결하여 수고스러움없이 데이터를 제공한다고 한다. )


MLB 선수 'Edwin Jackson'의 투구 데이터 (출처: https://baseballsavant.mlb.com/visuals/pitch3d?player_id=429719) 


 위와 같이 투구 데이터를 기반으로 구종이나 구속 등을 분석하고 Pitch design이라고 하여, 어떻게 던져야 할지 실제로 투구 방식을 고안하기도 한다. 이렇듯 데이터가 실제 야구에 접목되어 효과가 나타나기 시작하다보니 MLB에서는 적극적으로 데이터 분석가를 고용한다고 한다. 실력있는 야구 팬(Nerds)의 유입을 목적하고 있고 요즘엔 MIT, Carnegie Mellon, Harvard, NASA roccket scientist의 고급 인력을 채용한다고 한다. 구글, 아마존, 애플 등의 거대한 IT 기업과 인재영입을 경쟁하고 있는 셈이다. 그래서 요즘엔 이러한 세이버 메트릭스가 주류 문화로 진입되고 있다고 한다.


 이전 머니볼의 통계적 분석은 2007~2008년도 였다면, 근래에는 이렇듯 세이버 매트릭스나 트랙맨을 통한 분석을 통한 의사결정이라고 한다. 그 외로 다양한 데이터가 많겠지만, 그 중 하나로는 모든 선수들의 위치정보를 카메라 두 대가 3차원으로 구성해 저장한다고 한다.  한 경기가 십여 테라를 차지 할 정도로 양이 많다고 한다.  모든 선수들의 움직임을 추적하여 매 시각 저장하는 것이다. 이렇듯 빅데이터라는 게 정말 큰 규모의 데이터를 만져야 한다는 게 새삼 느껴진다. 빅데이터 처리 환경을 구축한다는 게 비용적으로나 인력적으로나 정말 어려운 일이다.


트랙맨(Trackman)이란 무엇인가?

 트랙맨이란 Trackman rader라고 한다. 투구 측적시스템으로써, 원천 기술이 미사일을 추적하는 싸드 기술이라고 한다. 발사각도나 타구속도 등을 측정하는 것이데, 이를 통해 barrel zone을 구분짓는다고 한다. 연타확률이 좋거나 치기 힘든 구획 등을 찾아주는 데 기반 데이터로 활용되는 것이다.


 TRN Factory 님의 블로그의 트랙맨 사진

(http://blog.daum.net/_blog/BlogTypeView.do?blogid=0dvQw&articleno=1734&categoryId=30&regdt=20150706132911)


 세이버 메트릭스라는 말을 많이 쓴다. 이는 야구 경기에서 나오는 데이터들를 통계학, 수학적으로 분석하고 인재 영입이나 전략 구성에 활용한다는 의미로 주로 쓰인다. 이 세이버매트릭스와 구속 시스템이 다르다고 하는데, 사실 나는 잘 모르겠다. 야구에 대해서 크게 관심이 없는 편이기에 데이터 측정이나 데이터는 더더욱 알 수가 없다. 방어율이라는 게 뭔지 아직도 도통 모르겠다.


한국 내 야구데이터 분석현황

 송민구 과장님의 언론사 인터뷰 자료를 보면 알 수 있듯이 현재 추적시스템 분석가라는 것이 국내엔 큰 구단 기준으로 1~2명 정도라고 한다. 또한 이렇게 분석한 데이터는 주로 임원 보고나 마케팅으로도 쓰이는 경우가 많다고 한다. 데이터에 대한 인식이 점차 개선 되어서, 이후에는 데이터를 통한 의사결정이 많이 이뤄지기를 기대한다. 더 나아가 자연스레 한 구단에서 쓰기 시작하면 다양한 구단에서 사용할 것으로 기대된다. 


 또한 실제로 쓰이는 데이터 분석 알고리즘이나 수식 자체도 다소 복잡하게 쓰이지는 않는다고 한다. 고등학교 때 쓰는 수학인 통계정도를 주로 사용하고 더 나아가면 MSE, RMSE 정도 사용한다고 한다. 현업에서 더 복잡하게 쓰일 수 있는 지 한창 공부하고 있는 내 입장에선 잘 모르겠다. 현업에서는 대부분의 산업에서도 RMSE, MSE 정도의 계산을 하지 않을까 싶다.


데이터 분석은 영업이다.

 크게 동일하는 파트 중에 하나였다. 가장 많이 들었던 게 "야구해봤냐?", "안해봐서 모른다.", "야구는 인생같다."와 같이 반응이였다고 한다. 통상 데이터 직무를 바라보는 현업자의 관점에 대해 알 수 있다. 


 처음에 일을 시작하시고는 Excel을 통해서 분석하기도 헀었다고 한다. 처음엔 "70%로 ~~한다."등의 자료를 만들어서 보고했다고 한다. 당연히 의사결정자들은 "그래서 뭐?"라는 식의 반응이였다고 한다. 데이터를 적용한 지 얼마되지 않았으니, 사내의 반응이 좋지 않았을 것이다. 더군다나 의사결정자들은 정리되어 결론을 이야기해주는 걸 원했을 것이다. 후에는 익숙해져서 "좌타자는 안쪽직구, 우타자는 안쪽변화구"와 같이 명료하게 떨어지게끔 자료를 정리해서 보고했다고 한다.  또한 선수나 감독,코치 그리고 동료들 혹은 임원에 따라서 같은 자료도 다르게 만들어서 공유했다고 한다. 그림을 만든다면 구체적인 수치를 기입하기도 하고 아니면 이해할 수 있도록 그림으로 표현하는 식으로 말이다. 이렇듯 현업의 요구사항을 구체화시키는 일이 데이터 분석가의 일이라고 할 수 있다. 


 그리고 명심하라고 해주셨던 말이 "내가 열심히한 분석이 거진 의사결정에 반영되지 않을텐데, 너무 실망하지 말라"였다. 또한 오히려 했을 때, 실패하는 것보다 나을 수도 있다는 얘기를 덧붙였다.


데이터를 다루는 길

 Data Analyst vs Data Engineer 그리고 Data Scientist 가 있을 때, 흔히 데이터 분석가는 분석하는 툴을 다룰 줄 알고 수리적 이해를 한 사람이라고 한다. 데이터 엔지니어는 하둡이나 스파크 등 분산시스템을 구축한다든지 대용량 처리 환경을 구축하는 개발자에 속한다. 데이터 Scientist는 이에 둘 다 능통한 사람을 말한다. (물론 혹자마다 이를 정의하는 방식은 다르다. ) 현업에서는 주로 Data Engineer가 우세하다고 한다. 데이터를 분석하고 통계적으로 분석하는 형태가 아닌 이상 시장에 좋은 패키지와 툴들이 있다보니, 데이터분석은 어렵지 않다. 반면 데이터가 늘어남에 따라서 이를 감당하고 처리할 수 있는 환경을 만드는 Data Engineer는 드물다는 관점이다. 


 따라서 통계적으로나 수식적으로 데이터 분석에 쓰이는 알고리즘을 이해하고 있으며, 이를 코드화할 수 있는 역량이 풍부하면서, 빅데이터 환경을 구축할 수 있는 고급인력인 Data Scientist는 몸 값도 비싸고 잘 없다고 한다. 그래서 현업에선 엔지니어의 끗발이 더 세다고 한다. 희귀하지만 현재로선 가장 필요한 인력인 셈이다. 


 더하여 현업에 있어서 중요한 역량 중의 하나가 데이터베이스에 대한 이해라고 한다. 특정 기업의 데이터는 지속적으로 축적이 되며 하나의 큰 데이터베이스로써 존재한다. 빨대를 꽂듯이 기존 데이터베이스에 파이프라인을 연결하여 필요한 데이터를 가져가기 위해선 기본적으로 데이터베이스에 대한 이해가 필요한 셈이다. 그러듯 하나 씩 파이프라인을 꽂아서 뽑아주는 역할을 해주는 사람 혹은 할 수 있는 사람들이 되어야 그러한 데이터를 기반으로한 의사결정이 가능케 된다. 가령 제조공장의 예를 들어보자. 원료의 수를 결정할 때 1공정과 2공정이 각각 있고 인력이나 회사에 대한 추가적인 데이터가 있다고 하면, 각각의 할당 된 사람한테 뿌려주는 작업이다. 공정 1 데이터분석가에겐 공정1의 데이터를 나눠주는 것이다. 


 또한 실제로 데이터 분석학과라는 학과가 존재하지 않기 때문에 산업공학과가 비교적 입지가 있다고 한다. 데이터 관련하여 많은 업무를 배울 수 있는 학과이기 때문이다.   


필요역량

 결국 (1)DB에 대한 이해도와 (2)분석적 통찰력, (3)대학교 성적 좋은 사람을 시장에서 우대한다고 한다. 모두가 숙련자를 뽑고 싶기 때문에 또한 알아야만 하는 것을 모르면 안된다. (CS, OR, 통계학가 그것이다.)


 마지막으로는 (4)Domain Knowledge와 Analytic Skills가 필요하다.  당연한 말이지만 실제를 모르면 데이터를 읽어봐야 그 행간을 읽을 수 없다는 의미다. 그래서 코드부터 고치지말고 컬럼을 보고 문제를 파악하고 청사진을 그려보는 것에 익숙해지도록 하자. 또한 거시, 미시 관점을 동시에 가져가서 여러 관점에서 데이터 혹은 산업을 바라볼 수 있어야 하는 것 같다. 


 실제로 데이터를 분석한다고 하더라도 각각의 산업이나 입지에 따라서 발생하는 이슈들이 매우 상이하다. 가령 야구의 경우도 모델링은 외국 MBA 데이터로 하고 가져와도 실제로 KBO에선 다르다. 선수들의 실력이나 환경 혹은 룰이 다르거나 문화의 차이가 있다. (물론 특정 도메인에 개인차이긴 해도 오래 몸을 담으면 이직이 어렵다.)

 


03. 출처 References



- 송민구 과장님의 강연내용 기반

- 관련 기사 (http://www.sportalkorea.com/general/view.php?gisa_uniq=2018020917282348119)

- 투구궤적 이미지 (https://baseballsavant.mlb.com/visuals/pitch3d?player_id=429719

- 트랙맨 이미지(http://blog.daum.net/_blog/BlogTypeView.do?blogid=0dvQw&articleno=1734&categoryId=30&regdt=20150706132911)