박병호의 MLB 29홈런 예상은 어떻게 계산되었을까?
Oliver Projection의 스카우팅으로 엿보는 MLB-KBO의 격차
며칠 전 모든 야구미디어에 실린 기사 중에 흥미로운게 하나 있었습니다. 미국의 권위있는 통계전문가가가 박병호의 MLB 예상 홈런수를 29개로 예측했다는 소식이었습니다.
14시즌 최고의 타자였던 강정호가 포스팅을 통해 피츠버그와 계약을 했고, 이번 시즌이 끝나면 3년연속 홈런왕 박병호 역시 MLB 포스팅 신청자격을 갖게 됩니다. 투수 쪽에서는 KBO 출신 류현진의 성공사례가 있었던 반면 야수쪽에는 아직 같은 케이스가 없으며 이런 저런 자칭 타칭 전문가들은 투수에 비해 아시아 출신의 야수 경쟁력에 의문을 표하고 있는 상태에서 저런 종류의 소식은 아무래도 관심을 끌 수 밖에 없습니다.
도대체 그 통계 전문가는 누구인가?
국내언론의 해외발 찌라시성 오보나 과장기사의 전과가 워낙 화려한지라 내막을 좀더 알고 싶어졌습니다. 기사가 말하고 있는 “권위있는 통계전문가”가 과연 누구인지 그가 어떤 맥락에서 변방의 홈런타자에게 관심을 가지게 되었는지 말입니다.
일단 기사 소스는 SBNation.com 의 블로그 사이트인 “Over the Monster” 입니다. 보스턴 레드삭스가 박병호를 관찰하고 있다는 내용입니다. (Red Sox scout Korean star first baseman Byung-Ho Park)
글을 쓴 것은 Lee Joon 이라는 (아마) 한국계 필자인데, 그는 이 블로그의 필자 중 하나이며 전에 weei.com 이라는 보스턴 지역기반 매체에서 인턴으로 레드삭스를 담당했던 적이 있다고 합니다.
Over the Monster 에 포스트가 실린 것이 1월 27일이고 다음날 브라이언 카트라이트 Brian Cartwright 가 여기에 트윗으로 박병호에 대한 예측스탯을 보냈는데 이를 기사에 업데이트한 것입니다. (https://twitter.com/OverTheMonster/status/560265640712617984)
브라이언 카트라이트가 예상한 박병호의 MLB2015 스탯은 600타석 기준으로 홈런29 볼넷68 삼진184 입니다. 그럴 경우 타출장은 237/332/457 이 되고 wOBA 는 343 이 됩니다. 좀 험하게 낮은 타율이 거슬리긴 하지만 어쨌든 wOBA 343 이라면 무난한 타자는 된다고 보는 것입니다. 물론 박병호의 포지션은 팀 최고타자들이 맡는 1루수이기 때문에 이를 염두에 둘 필요는 있겠지요.
결국 국내 미디어가 말한 MLB의 통계전문가는 브라이언 카트라이트입니다. 그리고 그는 Oliver projections 를 이용해서 박병호에 대한 예상스탯을 계산했다고 합니다.
미국의 세이버메트릭스 미디어
브라이언 카트라이트는 권위있는 통계전문가라고 불리기에 전혀 손색이 없는 인물입니다. 그는 하드코어 세이버메트릭스 미디어인 하드볼타임즈the HardBall Times (THT)와 일하고 있고 더구나 유망주들에 대한 통계예측시스템에 대한 전문가입니다.
그가 사용했다고 하는 (그리고 그가 개발하기도 했던) Oliver Projections는 하드볼타임즈의 THT Forecasts 의 일부이며 마이너리그 출신 유망주들이 MLB에 올라왔을 때 어떤 성적을 내게 될 것인지 예상하는 목적으로 사용됩니다. 최근에는 NPB 출신 선수들의 진출이 늘어남에 따라 이런 쪽으로도 종종 활용되는 거 같습니다.
그러니까, 예의 그 미국 통계전문가는 적어도 족보와 명함은 확실합니다.
* 미국의 세이버메트릭스 지향의 미디어들은 각기 다른 특성과 지향점을 가지고 있는데 가장 많이 알려진 Fangraphs.com 의 경우는 비교적 진보적인 성향을 가지고 있고 새로운 스탯의 디자인과 적용에 적극적입니다. 양대산맥의 다른 쪽 baseball-reference.com 는 좀더 보수적이고 리그의 1차 스탯을 축적하고 제공하는 쪽에 좀더 포커싱되어 있습니다.
이 둘 다음으로 유력한 미디어가 베이스볼프로스펙터스와 하드볼타임즈 입니다. 이 둘은 팬그래프나 베이스볼레퍼런스에 비하면 새로운 이론에 대한 실험적 접근에 관심이 많고 BIS 같은 하드코어한 분석시스템이나 유망주 스카우팅리포트나 forecasting 같은 것으로 유명합니다.
그렇다면 과연 어떤 과정을 통해 박병호의 MLB2015 타출장 237/332/457 이 계산되었는지 알고 싶어졌습니다. 이를 위해서는 올리버프로젝션에 대한 이해가 필요합니다.
올리버프로젝션은 MLEs:major league equivalency 를 기반으로 디자인되어 있습니다. MLEs 란 선수가 MLB에 진입했을 때 이전 리그의 스탯들과 기대되는 MLB 스탯 사이의 보정치를 말합니다. 만약 AAA레벨인 인터내셔날 리그에서 홈런 25개를 기록했던 선수가 MLB에서 뛸 경우 이 선수의 예상 홈런수는 인터내셔날 리그에 대한 MLEs 보정값을 곱하는 것입니다.
물론 이 과정은 꽤 복잡합니다. 선수의 나이를 고려해서 커리어의 등락을 감안하는 면도 있고 MLB에 처음 발을 들인 루키 선수들이 대체로 대타로 출장했을 때 생겨나는 통계적 쏠림(bias) 즉 “pinch hit penalty” 같은 것도 고려하는 것 같습니다.
박병호의 MLB 29홈런은 어떻게 계산되었을까?
사실 올리버프로젝션을 통한 박병호의 예상스탯이 계산된 과정이 궁금했던 가장 큰 이유는, 리버스 시뮬레이션을 통해 브라이언 카트라이트가 사용한 KBO 기준 MLEs 가 얼마나 되는지 알고 싶었기 때문입니다. 과연 KBO는 MLB와 어느정도의 수준차이가 있을까 또는 AAA레벨과 비교했을 때 얼만큼의 차이가 있을까 하는 궁금증 같은 겁니다. 마이너리그 AAA레벨의 MLEs 조정값은 구할 수 있기 때문에 그것과 박병호 예상에 사용된 MLEs 조정값을 확인해서 비교해보면 되기 때문이죠.
오해없기를 바랍니다. 저는 박병호의 MLB진출 예상스탯을 뽑으려는 것도 아니고 브라이언 카트라이트의 예상이 타당한지 논하려는 것도 아닙니다. 그런 것들은 제 능력 밖의 일입니다. 저는 다만 어느정도 알려져 있는 올리버프로젝션의 로직을 감안하여 박병호에 대한 [예상]을 통해 MLB와 KBO 사이의 수준 차이를 어느정도로 가정했는지 알고 싶은 것입니다.
물론 제한된 정보만 가지고 하는 리버스 시뮬레이션이 얼마나 정확할 수 있을지는 약간 불분명합니다. 하지만 한번 해보죠.
일단 다음은 올리버프로젝션이 예측한 박병호의 타격스탯입니다. 트윗에 언급된 스탯을 기준으로 빠진 조각을 맞춰보면 다음과 같이 재구성됩니다.
PA | AB | H | 1H | 2H | 3H | HR | BB | HBP | SO | |
예상스탯 | 600 | 522 | 124 | 68 | 27 | 0 | 29 | 68 | 6 | 184 |
*타석당 | 0.207 | 0.113 | 0.045 | 0.000 | 0.048 | 0.113 | 0.010 | 0.307 |
붉은 숫자는 언급된 타출장 237/332/457 이 나올 수 있는 스탯을 가정한 것입니다. 위와 같은 타격스탯을 기록할 경우 238/330/456 이 나옵니다. 대략 비슷하죠?
다음으로 박병호의 KBO 3시즌 타격스탯이 필요합니다. 그런데 MLEs에 사용하기 전에 시즌보정을 거쳐야 합니다. 예를들어 KBO14시즌은 지독한 타고시즌이었고 리그평균득점이 5.62점 이었습니다. 반면 MLB14는 투고시즌이었고 평균득점이 4.07점이었습니다. 이럴 경우 타고리그의 성적은 과대평가됩니다.
시즌 및 리그조정은 다음과 같은 방법을 사용했습니다. MLB 최근 3시즌의 리그평균득점과 KBO 최근 3시즌의 리그평균득점을 일치시키는 보정값(adjustment factor)를 사용합니다. 이렇게 하면 박병호의 KBO 3시즌 기록은 MLB 최근 3년 기준에 맞게 조정됩니다.
이 과정을 거친 박병호의 최근 KBO 3시즌 조정타격스탯입니다.
연도 | PA | AB* | 1H | 2H | 3H | HR | BB | HBP | SO | adj.factor |
2012 | 571 | 479.8 | 72.2 | 34.6 | 0.0 | 31.5 | 74.2 | 11.2 | 109.2 | 1.017 |
2013 | 556 | 460.3 | 80.2 | 15.3 | 0.0 | 33.3 | 82.9 | 7.2 | 106.6 | 0.901 |
2014 | 560 | 473.8 | 51.4 | 11.9 | 1.5 | 38.7 | 71.5 | 8.9 | 190.7 | 0.744 |
타석수PA는 actual value 이고 타수AB*는 추정된 값인데, 브라이언 카트라이트가 언급한 스탯에서 희타와 희플을 알 수 없기 때문에 그로인한 오차를 피하기 위해 KBO스탯과 MLB예상스탯 양쪽 다 추정타수AB* = (타석PA - BB- HBP) * 0.98 로 맞춥니다. 0.98 이란 조정값은 KBO 3시즌 동안 실제 박병호의 기록에서 희플과 희타를 고려했을 때 타석과 타수가 같아지는 값입니다.
적용된 스탯들의 조정
그래서 위의 표는 박병호의 KBO 3시즌 스탯을 MLB12_14 3시즌의 평균값과 같은 레벨로 맞춘 adjusted stats 이 됩니다. 단 파크팩터 적용은 하지 않았습니다. 신뢰할 만한 KBO파크팩터가 없다고 판단했기 때문이기도 하며 브라이언 카트라이트가 우리도 못구하는 KBO파크팩터를 사용했을 것 같진 않았기 때문입니다. (카트라이트가 한국프로야구의 문외한은 아닙니다. 그는 베이스볼레퍼런스가 2014년에 KBOstats DB를 구축할 때 여기에 참여한 바가 있습니다)
MLEs 는 계산항목으로 다음과 같은 것을 사용합니다. 이하 MLEs 에 대한 계산과정은 박병호 스탯예측 장본인인 브라이언 카트라이트가 MLEs에 대해 쓴 글(BTF, 2009)를 참고했습니다.
SDT = (H-HR)/(AB-SO-HR) : 홈런 이외의 안타 on 인플레이 상황
DO = DO/(AB-SO-HR) : 2루타 on 인플레이 상황
TR = TR/(AB-SO-HR) : 3루타 on 인플레이 상황
HR = HR/(AB-SO) : 공을 맞췄을 경우 중 홈런비율
HP = HP/(AB+HP+BB) : 타석당 HBP
BB = BB/(AB+HP+BB) : 타석당 볼넷
SO = SO/(AB+HP+BB) : 타석당 삼진
이상은 희플, 희타, 고의사구를 고려하지 않은 조건입니다.
MLEs 가 목적으로 하는 예측력을 높이기 위해 변수들을 좀 정리해주는 과정입니다. 예를들어 SDT는 삼진과 홈런을 제외한 타수에서 안타비율입니다. 즉 BABIP과 같은 개념입니다.
올리버프로젝션의 알고리즘
당연하지만, 브라이언 카트라이트의 프로젝션 과정이 저와 완전히 같았을지는 알길이 없습니다. 달라질 수 있는 부분이 있다면 다음과 같은 항목 때문입니다.
1. 박병호의 KBO 3년 기록을 동일 가중치로 사용했습니다.
만약 카트라이트가 3년 이상 또는 이하의 기록을 사용했거나 최근 기록에 더 비중을 두는 가중평균을 사용할 경우 달라질 수 있습니다. 몇종류의 가중치를 가지고 테스트를 해봤는데 3년 동일가중치로 했을 때 가장 자연스러운 결과가 나왔기 때문에 저는 이 방법을 선택했습니다.
2. KBO기록의 시즌보정factor로 [MLB 최근3년 리그평균득점 / KBO시즌별 평균득점]을 사용했습니다.
만약 그가 시즌보정을 하지 않았거나 다른 방법으로 시즌보정을 했을 경우 달라질 수 있습니다.
제가 처음에 사용했던 시즌조정방법은 KBO의 시즌별 타석당 개별스탯과 MLB의 시즌별 타석당 개별스탯을 맞춰주는 방식이었습니다. 좀더 복잡하긴 하지만 이쪽이 좀더 합리적이라 생각했기 때문입니다.
그런데 문제가 좀 있었습니다. 예를들어 KBO에 비해 MLB는 리그 타석당 홈런이 많습니다. 이건 MLB에 장타자가 많기 때문에 나타나는 리그특성인데 이런 요인 때문에 “박병호는 한국에서 100타석당 10홈런을 쳤기 때문에 미국에 가면 100타석당 15홈런을 친다”라는 식의 조정이 되어 버립니다. 이건 좀 이상하죠.
3. 그밖에 나이 조정 같은 것이 있을 수 있는데 이 케이스는 장기예측이 아니라 1년 예측이기 때문에 적용되었다고 해도 거의 차이가 없었을 겁니다.
누적기록범위와 가중치, 시즌보정방법에 몇가지를 테스트해봤는데 대부분 MLEs가 좀 비상식적으로 추정된 것으로 보아 위의 방법과 비슷했을 가능성이 꽤 높습니다.
그러니까, 브라이언 카트라이트가 왠만큼만 말되게 프로젝션을 했다면 대략 제가 역산한 것과 비슷비슷했을 거라는 이야기입니다. (뭐 아닐 수도 있지만요)
KBO와 MLB 또는 AAA와의 수준차이
다음 표의 마지막 줄이 핵심입니다. 그것이 MLEs term의 [KBO-MLB 수준차이] 입니다.
SDT | DO | TR | HR | BB | SO | |
KBO Adjusted | 0.2935 | 0.0679 | NA | 0.1022 | 0.1364 | 0.2426 |
MLB by OliverP | 0.3044 | 0.0874 | NA | 0.0859 | 0.1141 | 0.3088 |
MLEs | 1.0371 | 1.2871 | NA | 0.8399 | 0.8367 | 1.2730 |
이제 하드볼타임즈의 통계전문가가 KBO를 어떻게 보는지 엿볼 수 있습니다. 혹은 그 전문가가 좀 진지하지 못한 실수를 했을지도 모른다는 정황을 엿보게 될지도 모르죠.
이 숫자의 느낌을 알기 위해서 AAA 또는 AA 의 MLEs 기준과 비교하는게 도움이 됩니다. 다음은 브라이언 카트라이트가 이전 다른 글에서 밝힌 미국 마이너리그 MLEs 중 일부입니다.
항목의 숫자가 1.00 보다 작으면 리그 레벨이 올라갔을 때 스탯이 하락한다는 뜻이고, 1.00 보다 크면 상승한다는 뜻입니다. AAA선수가 MLB에 가면 예를들면 홈런은 0.82 수준으로 떨어지고 삼진은 1.15 수준으로 많아집니다. 그렇다면 KBO에 대해 적용 "했을 것으로 추정되는" 수준은 어떨까요?
리버스 시뮬레이션으로 추정할 수 있는 MLEs
AAA와 비교했을 때 SDT(홈런제외 안타) DO(2루타)는 KBO가 높고(심지어 MLB보다 높습니다) HR과 BB 는 AAA와 비슷하고 SO는 AAA와 AA 중간 쯤 됩니다. SDT가 1.00 보다 큰데도 박병호의 예상 타율이 꽤 낮은 수준인 0.237 인 이유는 HR과 BB가 줄고 SO가 크게 증가하는 것으로 예상했기 때문이다.
물론 어떤 기준으로 MLEs조정값을 이렇게 잡았는지는 알 수 없습니다. 다만 지금까지의 논리를 따라오다보면 그런 추정이 가능하다는 것 뿐입니다.
요컨데, 브라이언 카트라이트의 박병호 MLB진출 시의 예측스탯은,
KBO타자가 MLB에 올 경우
1. HR과 BB 은 0.83에서 0.84 정도로 감소한다. AAA-MLB 이동보다 약간 더 나쁘지만 거의 비슷한 수준이다.
2. 삼진은 1.27로 대폭 증가한다. AAA-MLB 이동(1.15)보다 휠씬 크다. 삼진증가에 대해서 KBO수준은 AA와 AAA 중간이다.
3. 대신 SDT (인플레이 상황에서 홈런 제외 안타비율) 는 오히려 KBO-MLB 이동시 증가한다. BABIP 즉 타구의 질은 KBO타자가 MLB 타자보다 더 좋다?
4. 홈런이 대폭 줄어든 대신 2루타는 오히려 증가한다. 아마도 비거리가 약간 줄어들면서 타구가 넘어가지 못하고 그라운드 안에 떨어지기 때문? 홈런의 감소와 2루타의 증가가 SDT의 증가를 설명할 수도 있다.
라는 가정 위에서 계산되었습니다.
혹시 이상하게 느끼실 수도 있는데 SDT 가 오히려 높아지는데도 3할 근처의 박병호 KBO타율보다 MLB 예상타율(0.237)이 휠씬 낮은 이유는, 첫째 최근 3년동안의 KBO는 MLB보다 확연하게 타고 상태였기 때문에 이것이 조정된 때문이고 다른 하나는 볼인플레이(ball-in-play)상황의 타율은 높아졌지만 그 이상으로 삼진이 대폭 증가하고 홈런과 볼넷이 감소했기 때문입니다.
이상입니다. 다만 너무 진지하게 받아들일 만한 글은 아닐 수도 있습니다. 애당초 브라이언 카트 라이트가 아주 엄격하고 진지하게 박병호의 예상스탯을 계산했을 것 같진 않으니까요. 다만 그동네 통계전문가가 막연하게 느끼고 있는 KBO 라는 아시아 리그에 대한 시각을 미루어 짐작해볼 만한 기회는 될 것이라 생각합니다.
올리버프로젝션은 원래 마이너리그 각 레벨의 선수들이 MLB로 올라갔을 때 실제로 기록했던 커리어 스탯을 기반으로 설계되어 있는데, KBO출신 선수의 MLB진출은 데이터가 없기 때문에 어쩔 수 없이 "때려잡은 숫자"를 사용할 수 밖에 없었을 것이기 때문입니다.
다음에 박병호에게 "적용되었을 것이라 추정되는" 프로젝션 알고리즘을 가지고 강정호의 MLB2015 예상스탯을 구해볼까 합니다.
'ANALYSIS' 카테고리의 다른 글
1점 또는 4점, 14년 홈런의 영양가에 관한 색다른 통계(1/3) (0) | 2015.02.18 |
---|---|
"4번타자 박병호"와 "20승투수 밴헤켄", 누가 더 가치있을까? (1) | 2015.02.10 |
MLB 구단 프론트의 평균대비 [기여승수]는 7.6승? (0) | 2015.02.04 |
세이버메트릭스를 몰라도 벤치는 언제 희생번트가 필요한지 안다? KBO역대 희생번트 빈도와 리그평균득점 상관관계 (0) | 2015.02.03 |
KBO의 희생번트 효율성에 대한 통계적 실험 (2/2) - 득점환경 scoring environment에 따른 효율성 변화 (0) | 2015.02.02 |