티스토리 뷰

하드볼타임즈의 유망주 예측시스템으로 추정한 

박병호의 MLB forecasting



기억하시는 분도 있겠지만 올해 초 “미국의 통계전문가가 박병호의 MLB 진출 시 타율0.237 홈런 29개 (600타석 기준)로 예측했다”는 뉴스가 있었습니다.   SBNation.com 계열의 블로그 Over the Monster 에 실린 박병호 관련 기사에 브라이언 카트라이트가 트윗한 코멘트를 소개한 것이었습니다. (Red Sox Scout Korean Star First Baseman ByungHo Park)


그는 대표적인 세이버메트릭스 미디어인 하드볼타임즈(THT)의 주요 필진 중 하나이고 유망주에 대한 통계예측시스템의 전문가이기도 합니다.  또 THT Forecasts 의 일부인 올리버프로젝션의 개발자입니다.  (그밖에도 그는 베이스볼레퍼런스의 KBO섹션의 코디네이터였습니다)  박병호에 대한 그의 프로젝션은 이 올리버프로젝션에 기반한 것이라고 밝혔습니다.



그것이 지난 1월 말인데, 그 사이 많은 것이 달라졌습니다.  물음표 투성이였던 KBO리그 출신 강정호는 모두를 놀라게 하며 MLB 연착륙에 성공했습니다.  높게 봐야 타격 잠재력을 가진 내야 유틸리티 플레이어쯤으로 여겨졌던 강정호는 피츠버그의 주전 내야수와 중심타자 역할을 하며 457타석 동안 15개의 홈런, 24개의 2루타, 2개의 3루타를 치며 .290/.359/.467 를 찍고 있습니다.  


강정호가 박병호의 미래를 바꾸고 있다  


OPS, wOBA, offWAR 등 여러 공격력 지표에서 그는 MLB 유격수 중에서 전체 1위이고 (정말입니다. 유격수로서의 강정호는  MLB 최강의 공격력을 가진 선수 중 하나입니다)  3루수로서도 Top5 수준입니다.   그렇다고 수비력이 아주 떨어지는 것도 아닙니다. 3루/유격수 어느 포지션에서든 평균 이상의 수비력을 보여주고 있습니다.  신인왕 타이틀까지 욕심내긴 약간 무리하고 해도 그는 확고한 후보 선상 안에 들어 있습니다. 


이런 변화는 같은 KBO리그 출신인 박병호에 대한 기대치를 당연히 바꾸어 놓았습니다.  2500만달러 수준의 계약이었던 강정호와 달리 1루수라는 상대적으로 불리한 수비포지션에도 불구하고 “박병호가 쿠바 출신이었다면 1억달러 짜리”라는 약간 과한 드립 조차 그리 험한 반발이 없습니다.


만약 박병호가 내년시즌 MLB 타석에 선다면, 그는 어느정도의 성적을 올릴 수 있을까요?


하드볼타임즈의 유망주 예측시스템을 통해 박병호의 성적을 예상해보자는 이 글의 제목은 물론 약간 과장된 것입니다.  저는 그 시스템에 대한 접근권한이 없습니다.  하지만 그렇다고 거짓은 아닙니다.  왜냐하면 THT Forecasts 의 일부인 올리버 프로젝션의 알고리즘을 사용할 수 있기 때문입니다.


이 시스템을 디자인한 브라이언 카트라이트는 그것을 처음 발표할 즈음 썼던 글(BTF 2009) 에서 프로젝션의 핵심 알고리즘인 MLEs(Major League Equivalency) 에 대해 소개한 적 있고 이를 참고할 수 있습니다.  게다가 KBO리그와 MLB 사이의 밸런스에 대해 어떤 정보도 없던 지난 2월과 달리 (물론 한명의 선수 케이스이긴 하지만) 지금은 강정호가 한 시즌을 달리며 쌓은 데이터도 있습니다.  또 박병호와 강정호는 같은 시기, 같은 팀에서 선수생활을 했기 때문에 이 두 괴물타자가 KBO에서 기록한 타격스탯은 거의 왜곡 없이 예측에 적용할 수 있기도 합니다.


MLEs 체계를 이용한 프로젝션 


MLEs는 기본적으로 수준이 다른 두 리그 사이의 보정값 체계입니다.  다만 한명의 타자가 가진 여러 종류의 공격능력 측정값들끼리 일으키는 간섭을 최소화하고 대신 비교대상이 되는 측정팩터의 상관관계를 극대화하기 위해 선수의 타격스탯을 SDT, DO, HR 등의 term 으로 변환시켜 계산한다는 점이 핵심입니다.


물론 이밖에도 선수의 나이, 신인선수들이 흔히 겪어야 하는 핀치히터 출전에 대한 패널티 같은 보정요소들도 갖고 있지만 박병호 케이스의 경우 큰 영향을 주지 않을 것이기 때문에 이는 생략합니다.


하여 다음과 같은 몇가지 전제를 두고 올리버프로젝션의 알고리즘을 이용해서 박병호의 MLB 진출 시 예상 스탯을 추정해 볼 수 있습니다.


1. 강정호의 KBO스탯과 MLB스탯의 격차가 KBO와 MLB라는 서로 다른 두 리그의 수준차이를 대표한다.

2. 강정호의 박병호의 KBO스탯은 시즌 차이에 따른 변수를 배제하기 위해 2012년부터 2014년까지 3시즌 동안의 것으로 일치시킨다.  

3. 위의 전제를 근거로 ---  시즌에 따른 타고, 투고성향 조정, 파크팩터 조정을 생략할 수 있으며, 박병호의 예상스탯은 MLB 내셔널리그 피츠버그의 2015시즌 조건에 맞춰진다.   

4. 선수의 나이, 리그 적응에 관한 심리적 문화적 요인을 고려하지 않는다.


강정호가 보여준 KBO와 MLB의 간격 


프로젝션에 투입할 박병호의 데이터와 전제조건이 위와 같이 정해지면 다음 단계로 필요한 것은 MLEs 의 팩터들을 계산하는 것입니다.  강정호 케이스를 기준으로 할 때 그 결과는 다음과 같습니다.


SDT = 0.9739  

DO = 0.8333

TR = 2.0602

HR = 0.5551

BB = 0.6002

SO = 1.1242


* 강정호의 경우 MLB15 시즌에 특이하게 HBP가 많습니다.  BB=28 일때 HBP =17.  그가 예외적인 마그넷 속성을 갖고 있지 않다면 이것은 랜덤니스의 결과로 보는게 맞고 이로 인해 거꾸로 BB%가 감소했을 가능성을 고려할 필요가 있습니다.  단순히 BB% 값을 적용했을 때 KBO MLEs 의 BB 팩터가 비정상적으로 낮게 나오기도 합니다.  따라서 (객관적 근거가 있는 조정방법은 아니지만 그냥 때려잡아서) BB와 HBP를 섞은 후 HBP의 절반을 BB로 간주하는 조정을 했음을 밝힙니다.  


위 팩터들은 기본적으로 안타, 2루타, 3루타, 홈런, 볼넷, 삼진에 대한 보정가중치이긴 하지만 타석당 이벤트 빈도와 일대일로 대응되는 것은 아니고 몇가지 term 조정과정이 있습니다.  (이에 대해 좀더 자세한 것은 이전 포스팅 참고 :  박병호의 28홈런을 예상한 미국 통계전문가이 정체는?  )  대략 설명하지만, 안타는 근소하게 감소하며 홈런과 볼넷은 크게 감소, 삼진은 약간 증가 정도의 의미입니다. 


참고로 마이너리그 각 레벨 사이의 MLEs 는 다음과 같습니다.

MLEs가 계산되고 나면, 박병호의 기초데이터에 이를 적용해서 MLB 예상기록을 추정할 수 있습니다.  기초데이터는 앞서 말한대로 KBO2012-2014 3시즌 동안의 데이터를 사용합니다.  (이는 만약, 박병호가 2012-2014 기간에 비해 좀더 능력이 향상되었다면 계산된 예측치에 플러스 알파를 가질 수 있다는 의미입니다.)


0.261/0.340/0.448/0.778 21HR 500PA


프로젝션의 결과는 다음과 같습니다.  500타석 기준으로 조정한 값입니다. (강정호는 현재 457타석)  그리고 희생번트와  희생플라이를 제외하면서 생긴 약간의 오차가 있습니다. 



약간 의외의 결과입니다.   최근의 많은 야구관계자들이 박병호의 MLB 진출 결과에 대해 긍정적인 예상을 하는 이유는 1) 박병호는 적어도 KBO 에서 강정호 보다 더 강한 타자였고   2) 따라서 박병호가 강정호가 보여준 KBO-MLB 사이의 격차 안에서 조정된다면 강정호 이상의 성적을 낼 것이다.  3) 그리고 그 정도의 성적이라면 1루수라는 포지션을 감안하더라도 MLB에서 충분히 경쟁할 수 있는 수준이다. 라는 논리입니다.


실제로 박병호는 타율을 제외하고  장타율, 홈런, OPS 에서 강정호보다 우위였습니다.   그럼에도 불구하고 올리버프로젝션의 알고리즘을 사용할 경우 그의 MLB 예상성적은 OPS에서 강정호 0.826 보다 많이 낮은 0.779 수준에 머물렀습니다.


어떤 이유 때문일까요?  결론 부터 이야기하지만 강정호와 박병호 이 두명의 KBO출신 괴물타자가 가진 공격력 구성요인의 차이 때문이었습니다.


박병호와 메이저리그의 통계적 상성


강정호 역시 압도적인 장타력을 가진 타자이긴 하지만 박병호 만큼은 아닙니다.  박병호는 자신이 공격 생산성의 상당 부분을 홈런으로 만들어냅니다.  대신 강정호는 2루타가 강정호보다 50% 가까이 많습니다.  또 다른 중요한 차이는 볼넷입니다.  역시 강정호도 무시무시한 존재감을 가진 타자이지만 박병호와는 좀 다릅니다.  박병호는 강정호보다 좀더 많은 볼넷을 골라내는데 이것은 두가지 효과를 만들어냅니다.  직접적으로 출루율의 상승이고 간접적으로 타수(at bat)의 감소로 인한 타율과 장타율 상승 입니다. 


그런데 KBO와 MLB 사이의 보정가중치에서 가장 큰 폭의 하향을 예상하는 것이 홈런과 볼넷입니다.  홈런과 볼넷 관련 조정팩터인 HR, BB (오해를 피하기 위해 반복하면 이것이 직접적으로  타석당 HR%, BB% 값을 나타내는 것은 아닙니다) 는 각각 0.56, 0.60 입니다.  반면 안타와 2루타 관련 조정팩터는 SDT, DO 는 0.97, 0.83 입니다.  홈런과 볼넷 팩터만큼은 아니지만 삼진에 대한 두 타자의 차이 역시 약간 영향을 미치고 있습니다.  박병호는 강정호보다 삼진이 더 많은 타자입니다.  MLB 조건에서 삼진은 증가할 것으로 예상되며 이는 삼진으로 인한 공격력 손실에서 박병호가 강정호보다 상대적으로 더 많은 손해를 보게 됩니다. 


MLEs의 알고리즘의 기준에 의하면 강정호는 MLB에 잘 통하는 유형의 강점을 가진 반면 박병호는 상대적으로 MLB로 옮겨갈 때 가치가 반감되는 유형의 강점을 가지고 있다는 뜻입니다.  그 결과로 KBO에서는 박병호가 강정호보다 종합적으로 더 생산성이 높은 타자일 수 있지만 MLB 에서는 그것이 역전될 수 있다는 뜻도 됩니다.


새로운 들판으로 나간 맹수의 운명


KBO에서 박병호는 영리한 맹수처럼 굴었습니다.  리그의 어떤 투수도 그와 정면으로 맞서려 하지 않았습니다.   걸어서 나가도 좋다는 태도로 존의 모서리를 공략해오는 투수에 대해 박병호는 결코 서두르지 않습니다.  느긋하게 공을 고르며 기다립니다.  실제로 그는 리그에서 타석당 투구수가 가장 많은 타자 중 하나입니다.  그러다가 몰리는 공을 여지업싱 담장 밖으로 날려보내며 상대를 절망에 빠뜨렸습니다.  


이런저런 통계적 분석을 통해 해명된 것처럼,  볼넷을 끌어내는 것은 매의 눈이 아니라 맹수의 위압감입니다.  눈이 좋고 컨택이 뛰어난 리드오프들보다 압도적인 장타력을 과시하는 슬러거들이 더 많은 볼넷 출루를 얻습니다.  그것이 그들의 출루율을 상승시키고 간접적으로 타율과 장타율을 끌어올립니다.  박병호는 전형적으로 그런 유형의 타자입니다.  


그런데 이 맹수는 새로운 들판으로 가려 합니다.  새로운 무대의 투수들은 그런데 그를 맹수로 여길까요?  KBO의 투수들이 그랬던 것처럼 그를 두려워하며 많은 볼넷을 허용하게 될까요?


브라이언 카트라이트가 지난 2월의 프로젝션에서 아마도 적용했을 것으로 추정되는 볼넷에 관한 MLEs 팩터는 0.8 정도 였습니다.  삼진에 대해서는 1.27 이었습니다.  실제 강정호 케이스와 비교한다면 볼넷은 휠씬 더 많이 감소하고 삼진을 생각보다 덜 증가하는 것으로 나타났습니다.


러프한 가설이지만 다음과 같은 가설을 생각해 볼 수 있습니다.


MLB투수의 강하고 변화가 많은 공에 맞서는 타격기술에서 KBO 탑클래스의 타자들은 적응 가능한 수준의 대응능력을 가지고 있다. 

반면 KBO에서 투수를 상대하던 것과 달리 대응한 힘을 바탕으로 하는 승부 속에서 이전에 누렸던 “맹수의 포지션” 잇점을 더이상 가지지 못할 경우에 생겨나는 마이너스 요인을 어떻게 극복하는가가 더 큰 영향을 줄 수도 있다. 


편견, 도전, 실험 그리고 데이터 


어떤 이들은 집요한 견제 속에서 타석에 서는 것이 슬러거가 감수하야 할 불리함이라고 생각할지 모르지만 야구에 관한 이런저런 낭만적 가설을 벗겨내고 보면 집요한 견제란 (타자가 수준급의 타석운영능력을 가졌을 경우) 더 유리한 볼카운트에서 타격할 수 있는 기회를 말하며 더 잦은 볼넷 출루로 득점생산에 기여할 수 있는 조건을 말합니다.  박병호라는 괴물타자는 새로운 무대에서는 더이상 그런 유리함을 누리지 못할 수도 있습니다.  


물론 이상과 같은 느슨한 분석이 박병호 MLB성공 비관론으로 확대해석될 이유는 없습니다.  우리가 참고한 샘플은 강정호 단 한 명의 케이스이며, 우리가 사용할 알고리즘은 대충 빌려온 미국의 마이너리거 대상 예측시스템에 불과합니다.  게다가 유망주 예측 시스템이란 것이 당연히 그렇듯이 미국에서도 항상 맞는 것은 아닙니다.  그조차 아주 정교하게 적용한 것은 아니구요.  


그밖에도, 강정호의 MLB15 스탯은 리그적응이 되어가며 점점 좋아지고 있는 편입니다.  초기 들쭉날쭉한 기용 시기를 빼고 계산하면 달라지는 부분도 있을 것입니다. 


무엇보다 박병호는 여전히 변하고 있습니다.  그는 드라마틱한 굴곡을 겪으며 이게 그의 최대치인가 싶을 때마다 그 다음 단계로 도약을 거듭해온 선수입니다.  


그에게는 잘 알려준 두 얼굴이 있습니다.  하나는 리그를 압도하는 괴물슬러거, 다른 하나는 과거 애증의 "반쪽짜리 거포 유망주"의 것입니다.   하지만 또 다른 얼굴도 있었습니다.  구리 퓨처스 시절 누구보다 열심히 훈련하던 선해 뵈는 야구선수 청년의 얼굴입니다.  그가 새로운 도전을 시작할 때 성패의 열쇠가 되어 줄 것은 어쩌면 그 세번째 얼굴일 수도 있지 않을까요?


물론 그런 것과 별개로,  메이저리그와 한국야구 각격과 차이에 대한 사이의 간격과 차이에 관한 관념과 신화들 말고 그에 대한 새롭고 흥미로운 “야구에 대한 객관적 지식”을 얻을 기회가 되겠다는 기대도 가집니다.   N=1 은 아직 모자라니까요. 



댓글
  • 프로필사진 삼팬 재미있는 예측이네요. 보통 사람들은 KBO-NPB로 계산한 다음 KBO-MLB를 계산하는데 독특하네요. 2015.09.16 15:24 신고
  • 프로필사진 야구고물상 요새 좀 생각한 게 있는데, 리그의 기록 예상에 있어서 메이저리그의 평균적인 득점수준을 4.5점으로 놓고 X점의 득점이 있으면 타자의 수준을 X/4.5, 투수의 수준을 4.5/X로 맞추고(리그 평균의 수준이라고 가정해서) 타자의 수준의 높아진 이후 투수의 수준이 높아지는(혹은 반대의) 사이클을 중심으로 리그의 발전을 생각해 본 후, KBO와 NPB도 똑같이 적용해 본 후 과거의 리그 이동 사례들을 Aging Curve를 이용해서 KBO와 NPB의 MLB에 대한 해당 연도의 수준을 계산해보면 현재의 수준들도 계산이 가능하지 않을까하는 생각이 들었습니다. 그 다음 Aging Curve와 함께 리그 이동 Projection을 진행하는 거를 말이죠. 물론, 사이클의 기간이 일정하지 않고(점점 더 길어지는 것 같기는 합니다만..) 약이나 스트라이크존 조정 같은 외부 요인이 있어서 문제가 있기는 합니다...

    이거 보니 제 생각이랑 굉장히 비슷한 거 같아서요..어쩌면 똑같을지도 모르겠네요.
    2015.09.18 23:20 신고
댓글쓰기 폼