본문 바로가기
diegobaseball
세이버메트릭스 도서관

새로운 데이터, 새로운 세이버메트릭스

by 토아일당 2015. 12. 1.


투수의 릴리즈포인트와 공의 궤적을 추적하는 PitchFX 데이터라는 것이 세상에 나타나자 세이버메트리션들은 격한 환호를 보냈습니다.  첫 선을 보인 것은 MLB 2006 플레이오프 부터 였을 겁니다.  


2000년대는 세이버메트릭스의 황금기라고 해도 좋은 시기였습니다. 2001년 보로스맥크라켄의 DIPS혁명은 타격 분야에 비해 다소 정체상태였던 피칭 이론의 급격한 발전을 추동하며 새로운 10년을 열었고,  2006년 톰탱고의 theBook 이 기대득점(RunExpectancy) 모델을 기반으로 득점가치(RunValue) 승리확율(WPA)로 확장되는 일련의 거대통합이론을 만들어내기까지의 과정은  정말 거칠 것이 없어보였습니다.    


그 사이 변방의 기행 또는 호사처럼 보였던 세이버메트릭스는 오클랜드의 머니볼 신화를 계기로 차례차례 주류 야구계에서 강고한 진지를 구축해갔습니다.  


이와중에 꿈도 못꾸어온 신기방기한 데이터들이 세상에 쏟아져나오자 세이버메트리션들이 죽을 것처럼 흥분한 것이 당연한 일입니다.  그들은 충분히 긴 지렛대만 있다면 지구 쯤이야 가볍게 들어올릴 수 있다고 믿었던 고대의 어떤 과학자처럼 충분히 많은 데이터만 있으면 야구의 모든 것을 이해하고 해석할 수 있다는 격한 확신을 가졌고 새로 선물받은 데이터야말로 바로 그에 필요한 충분한 조건이라 여겼을 수도 있습니다.   이 시절은 과학기술이 인류의 영원한 미래를 약속해줄 거라 굳게 믿었던 근대주의 끄트머리처럼 들떠있었습니다.  


벌떼처럼 달려들어 야구의 모든 것을 파헤치리라 의욕충만했던 세이버메트리션들은 그러나 멈칫거리게 됩니다.  이게 생각처럼 만만치가 않았던 겁니다.


더 많은 데이터가 더 나은 분석을 보장하지 않는다 


흔히 “볼끝이 좋은 공” 이란 아마도 더 큰 무브먼트에 대한 관습적으로 미신적인 표현이었을테니, 이제 그에 대한 데이터를 통해 구속 따위의 캐캐묵은 측정데이터로부터 해방되어 더 가치있는 투구, 더 좋은 투수를 가려낼 수 있을거라 기대했지만 데이터가 그리 호락호락하지 않았습니다. 


무브먼트와 피칭 퍼포먼스 사이의 상관관계가 명확히 드러나질 않기 때문입니다.  더 큰 무브먼트를 가진 투수가 꼭 더 좋은 타격결과를 얻지 못합니다.  로케이션의 문제일까요?  하지만 어디에나 있기 마련인 소수의 아웃라이어를 제외하고 존 구속에 특별히 더 잦은 빈도로 공을 던져넣는 투수들은 쉽게 발견되지 않았습니다.  


게다가 측정 데이터의 정확도 역시 문제가 되기 시작합니다.  특히 릴리즈포인트의 경우가 그랬는데 수준급 투수들은 거의 인치 수준의 릴리즈포인트 변화 밖에 보이지 않습니다.  릴리즈포인트는 의미있는 데이터임은 분명하지만 최첨단의 투구추적기술이라 해도 인치 레벨의 오차까지 완전히 제거하긴 어려뤘습니다. 


열광은 결국 잦아들었고 그로부터 몇년이 지날 때까지 의미있는 성과는 나타나지 않았습니다.  90년대 초중반 이후 거칠것없이 통찰과 분석의 지평을 넓혀가던 세이버메트릭스 진영은 왠지 정체기를 맞은 것처럼 보일 정도였습니다.   물론 같은 시기 구단 프런트를 중심으로 하는 주류 야구계 안으로 급속하게 견고한 세력확장이 이루어지긴 했지만, 어쩌면 이것이 그동안 공개영역의 제한없는 토론과 쟁명 속에서 발전해온 특유의 에너지를 감소시킨 것일 수도 있습니다.  MLB구단들은 세이버메트릭스가 그들의 승리에 도움이 된다는 것을 확신하자 이름있는 분석가들을 영입해서 사무실 안에 안전하고 비밀스럽게 보호했기 때문입니다. 


그런데 이제 잠시의 정체기가 끝나고 다시한번 새로운 도전이 시작되는 흐름이 나타나기 시작한 것 같습니다.  몇해 동안의 모색이 이제 열매로 변할 만큼 무르익은 것일 수도 있겠죠.


피치프레이밍


그중 이젠 거의 확실히 자리를 잡은 것은 우선  [피치 프레이밍]입니다.  이론적으로 스트라이크와 볼은 [로케이션]의 문제지만 심판의 판정이 100% 기계적으로 일정할 수 없으니 그것은 확율의 문제가 됩니다.  따라서 만약 포수가 특정 궤적, 특정 로케이션의 투구의 스트라이크 콜 확율을 높일 수 있다면 그것은 아주 중요한 능력이 됩니다. 


이런 발상이 의미있는 분석모델로 성립하기 위해서는 다음 2가지 조건을 만족시켜야 합니다.  


첫째, 개별 선수의 캐칭 결과에 따른 스트라이크/볼 판정결과가 의미있는 차이를 보여야 합니다.  잘하는 선수나 못하는 선수나 시즌 내내 기껏 2-3점 정도의 득점효과 차이 밖에 없다면 그것은 의미있는 기술이겠지만 의미있는 지표일 수 없습니다. 


둘째, 한 시즌의 퍼포먼스가 다음 시즌에도 비교적 일관되게 나타날 수 있어야 합니다.  그렇지 않다면 그것이 선수 능력의 결과인지 아니면 단순한 우연의 결과인지 구분할 수 없기 때문입니다.  비교한다면 상대 수비실책에 의한 출루는 분명히 득점효과를 가지지만 그것이 선수 능력에 속해있다면 (아마 법력) 매 시즌 강한 상관관계를 가지고 반복되겠지만 만약 그렇지 않다면 그건 능력의 문제가 아니라 우연 또는 다른 제3 요인의 결과라고 보는 쪽이 더 타당합니다.


피치프레이밍은 위의 2가지 조건을 만족시켰습니다.  첫번째 조건의 경우 볼카운트에 대한 득점가치를 바탕으로 각각의 정확한 득점효과를 계산할 수 있고 그렇게 계산을 해보니 선수들마다 시즌 +20점 에서 -20점 이상의 편차를 보였고 두번째 조건의 경우 year-by-year correlation을 계산했을 때 충분히 높은 값을 얻을 수 있습니다.


결국 이제 피치프레이밍은 포수의 수비능력에서 아주 중요한 비중을 차지하는 것으로 인정받고 있으며 호세 몰리나 같은 신데렐라도 등장할 수 있게 되었습니다.   최상급 피치프레이밍 능력을 가진 포수는 리그평균보다 2승+ 의 효과를 만들 수 있고 하급 포수에 비해서는 4승+ 정도의 격차까지 생깁니다.   4승+ 효과라면 타격에서 홈런을 25개 이상은 더 쳐야 상쇄될 수 있는 격차입니다.  


다음은 참고할 만한 2개의 아티클입니다. 


http://www.baseballprospectus.com/article.php?articleid=22934

Framing and Blocking Pitches: A Regressed, Probabilistic Model


http://www.hardballtimes.com/the-state-and-future-of-pitch-framing-research/

The State and Future of Pitch-Framing Research



측정할 수 없지만 존재했던 것들


그런데 피치프레이밍 이론의 대두와 정착에는 그냥 넘기기 어려운 아이러니가 포함되어 있습니다.  포수의 수비는 아직도 데이터드리븐 분석에서 가장 외진 영역입니다.  올드스쿨 스카우팅과 대립각을 세우며 성립하고 또 발전해온 세이버메트릭스는 포수의 수비능력에서 블로킹과 도루저지처럼 통계적으로 측정되지 않는 것에 대해 매우 냉소적이었습니다.  한국에서는 게임리드라 칭하는 게임콜 같은 것은 유니콘이나 산타클로스 같은 미신으로 취급해왔습니다. 


최초에 포수방어율 같은 다소 거친 분석모델부터 시작해서, “서로 다른 포수가 마스크를 썼을 때 타석결과의 의미있는 차이는 발견되지 않았다” 라는 결과를 바탕으로 만약 ‘보이지 않는’ 게임리딩 능력 같은 것이 있다면 그 포수가 마스트를 썼을 때 투수의 성적이 좋아져야 하지만 그렇지 않기 때문에 게임콜이란 허상이라는 식이었습니다.


그런데 이게 묘합니다.  이런 분석이 겨냥한 것은 [게임콜]이 있으냐 없느냐가 아니었습니다.  블로킹과 도루저지 말고 “그외에 경기에 영향을 미치는 포수능력의 흔적”이 있느냐 없느냐 였고 당시의 결론은 “없다”였던 것입니다.


그렇다면 이제사 각광을 받고 있는 [피치프레이밍]은 뭘까요?  결국 당시의 분석이 놓쳤다는 이야기가 됩니다.  즉 “통계적으로 발견되지 않았다”라고 해서 “존재하지 않는다”일 수 없다는 중요한 교훈이 됩니다.   


볼배합을 측정할 수 있을까?


그렇다면 전통적 시각에서는 아주 중요하게 여겼으나 어떤 세이버메트리션들 또는 그 추종자들이 온 힘을 다해 무시하고 조소했던 “게임리딩=게임콜”은 어떨까요?  그 언저리에 투구배열이론(pitching sequencing) 이 있습니다.


즉 특정한 볼배합이 더 좋은 타석결과를 만들어낼 수 있다는 발상에서 시작합니다.  물론 이런 시각은 아주 오래전부터 있어왔습니다.  관건은 그걸 측정하고 계산할 수 있느냐 하는 문제입니다. 


다음은 SABR Anaylitcs 2015 우수논문의 후보중 하나였던 아티클입니다. 

 

http://www.hardballtimes.com/the-effects-of-pitch-sequencing/

the Effecfs of Pitch Sequencing


Jon Roegele는 연속된 2개의 투구에서 유독 타자의 헛스윙 비율이 높아지는 조합(in band pitch)을 찾아내고 그 조합의 특징을 해명합니다.  대체로 비슷하게 날아오다 타자의 타격판단 시점 이후 궤적이 변하는 공이 80% 이상의 비중을 차지하고 있었습니다. 

그리고 이런 투구배열을 하는 것은 선택의 문제일 뿐 아니라 투수의 “능력”에 속할 가능성이 높다는 정황을 발견합니다.  특정한 투수에게서 in band 피치가 일관되게 나타나고 있기 때문입니다.  그리고 그들은 대체로 강력한 세컨피치를 가진 것으로 알려진 투수들이었습니다.


다만 어느정도 이론적 토대가 완성된 피치프레이밍과 달리 피치시퀀싱 같은 경우는 아직 그정도는 아닌 것 같습니다.  이유는 데이터를 다루는 난이도 차이 때문일 수 있습니다.


적은 데이터, 큰 가능성


피치프레이밍의 경우, 투구가 누구든 대체로 구질에 따른 편차만 조정해주면 어느정도 쓸모있는 데이터가 됩니다.  반면 피치시퀀싱의 경우 그러기가 어렵습니다.  같은 구종으로 분류된다 하더라도 투수에 따라 궤적이 다르고 커맨드가 다릅니다.  이에 따라 타석결과가 영향을 받습니다. 


따라서 예를들어 패스트볼과 슬라이어더를 조합하는 피치시퀑싱이 결과 혹은 효과를 측정하려고 동일 시즌의 여러 투수들 데이터를 종합한다 해도 각각 투수들이 가진 구종의 특성, 로케이션의 차이, 그밖의 다른 요인으로 인한 교란 때문에 정확한 연관성을 찾아내는게 휠씬 힘듭니다.


N=1 이라는 인상적인 아티클은 아마 이런 맥락에서 쓰여졌을지도 모르겠습니다.  필자인 러셀칼튼은 프런트 오피스에 갇히지 않고 남아있는 몇 안되는 베이스볼프로스펙터스의 주력 필진이며 2000년대 이후 백가쟁명의 시대를 겨쳐온 나름 역전 노장(?)이기도 합니다. 


제 포스팅에서 소개한 적 있는 BABIP에 영향을 미치는 투수, 타자, 수비, 운의 영향을 톰탱고 이후 버전으로 측정한 분석 역시 그의 유명한 작품 중 하나입니다. 


N=1

https://sabr.box.com/shared/static/tiv1lekep55so9xkkam6u1ukewj6ui0b.pdf


아마 다른 글도 그럴지 모르겠지만 여기에 대해서는 친절하게도 번역본 링크도 함께 있습니다.

http://mlbnation.co.kr/bbs/board.php?bo_table=column&wr_id=16021&sca=&sfl=wr_subject%7C%7Cwr_content&stx=n%3D1&sop=and


그는 이렇게 말합니다. 


I prefer to think of it in a different way. Maybe it’s because of the emphasis on large N research that’s been so prevalent across the discipline of Sabermetrics for so long, but the field has marginalized these types of individual differences. Maybe it’s the fact that a lot of what Sabermetrics has set out to combat has been narrative-driven pseudo-research that relied on “just trust me” or sample sizes that are laughably small to make a point about a player. But we’ve come to ignore, or worse, dismiss the thought that players might react to situations in different ways. The point of Sabermetrics shouldn’t be to destroy anything which smells of narrative, but to promote good, solid research methods in the study of baseball. There are perfectly good, methodologically sound ways to look at individual players and to find interesting things about them. This sort of research is something that Sabermetrics should already naturally be doing.


대략 요약하면 ---

세이버메트릭스는 근거도 없는 자신의 뇌내망상을 이론이라 우기는 거짓말쟁이들이나 말도 안되게 작은 샘플사이즈의 데이터를 가지고 통계적 근거 드립을 쳐대는 작자들과 싸워오다보니 작은 샘플사이즈를 통한 분석을 의도적으로 혹은 무의식적으로 무시해왔지만 선수 한명 한명의 뉘앙스에 맞는 분석을 위해서는 , 결국 더 적은 데이터로 더 유용한 결론을 찾아내는 방법을 찾는 것이 점점 중요해진다 쯤 될듯 합니다.  


그런데 선수 한명의 뉘앙스를 고려하는 분석이란 좀 다른 접근을 필요로 합니다.  N=1 이라는 패러다임 역시 그런 것이지만 이와 함께 다른 종류의 데이터 역시 필요합니다.   트랙맨 이라는 브랜드로 런칭된 새로운 측정 테크놀러지는 여기에 중요한 역할을 할 가능성이 있습니다.



새로운 데이터, 다른 가능성


sportvision의 PitchFX 와 달리 트랙맨은 도플러 레이더를 사용하며 좀더 디테일한 데이터를 측정해낼 수 있습니다.  PitchFX 버전에는 없던 회전수, extention 같은 것들이 포함되어 있으며 투구가 손끝을 떠나 플레이트에 도달하기 까지의 궤적을 좀더 많은 차원에서 추적합니다.  특히 투구 뿐 아니라 타구의 속도를 측정한다는 면에서도 다릅니다.  새로운 데이터는 새로운 토픽, 새로운 인사이트를 부릅니다.  그리고 그것 주 어떤 것은 새로운 domain으로 자리를 잡게 될 겁니다. 


MLB에서 2015년부터 공식 사용되고 있는 statcast에서도 가장 핫했던 분야는 타구속도(exit speed)였습니다.  


http://baseball-in-play.com/212

어떤 투수는 맞춰잡는 능력을 가지고 있다.


보로스 맥크라켄의 DIPS혁명 이후, 인플레이 타격의 결과는 투수의 책임이 아니라는 접근이 일반적이 되었습니다.  물론 이후의 분석을 통해 투수의 영향이 좀더 구체적으로 해명되긴 했지만 그럼에도 “방법론적으로” 투수의 영향을 배제하는 것이 고려하는 것보다 더 나은 설명력을 가지는 것으로 보였기 때문에 대세가 달라진 적은 없었습니다.


그런데 트랙맨이 측정하는 타구속도는 이런 패러다임을 바꾸어놓을 가능성도 있습니다.  흔히 “타구의 질”이라 불리던 추상적인 어떤 것이 좀더 구체적인 것으로 측정되고 계산되며 분석될 가능성이 생겨났기 때문입니다.


또다른 핫이슈는 “회전수”입니다.  이는 필드에서의 구체적인 성공사례로부터 지지받고 있습니다.  콜린 맥휴라는 투수가 주인공입니다.  그는 메츠와 콜로라도에게 버림받은 흔하디 흔한 쩌리 투수에 불과했습니다.  최근 가장 의욕적인 데이터드리븐팀 휴스턴은 어떤 데이터에 주목했습니다.  “회전수”였습니다.


핫이슈 : 회전수가 높은 투수


그의 커브볼은 리그평균보다 휠씬 높은 회전수를 가지고 있었습니다.  휴스턴은 그를 데려다가 투구패턴을 바꾸도록 권했고 콜린맥휴는 리그 A급 선발투수로 변신하는데 성공했습니다. 


이 사례는 그저 지난 20여년 동안 종종 목격되어온 데이터드리븐의 신화 중 하나일 수도 있지만 좀더 중요한 시사점도 함께 가지고 있습니다.


빌제임스의 야구요강이 출간되고 빌리빈이 오클랜드의 신화를 써내고 톰탱고가 기대득점이란 천재적 통찰을 통해 야구의 복잡성 거의 대부분을 해명해내는 과정에서 여전히 변함없던 것은 그들이 근거했던 데이터는 outcome을 측정해서 확인한 퍼포먼스에 대한 것이었다는 겁니다.  그리고 거기에서 갖가지 교란요인을 통계기술과 탁월한 통찰로 벗겨내고 선수와 플레이를 객관적이고 중립적으로 평가할 수 있는 방법을 찾아오던 과정이었습니다.


즉 (당연하게도 그리고 불가피하게도) 객관적으로 드러났고 그래서 측정가능한 outcome을 다루어 왔지만 목적했던 바 중 상당부분은 능력(skill)에 대한 평가였다는 것입니다.  그런데 outcome 을 통한 능력의 평가는 필연적으로 큰 사이즈의 데이터를 필요로 합니다.  따라서 그럴 수 없는 분야에 대한 분석은 유예될 수 밖에 없었습니다.


그런데 만약 좀더 직접적으로 선수의 퍼포먼스가 아니라 그걸 지배하는 “능력(skill)”을 다룰 수 있는 길이 생긴다면 양상은 바뀔 수 밖에 없습니다. 만약 스피드건에 찍힌 구속이 투수의 능력을 충분히 설명하고 있다면 사실 FIP가 왜 필요할까요.  휴스턴이 콜린맥휴에게서 다른 팀이 보지 못한 재능을 발견하는데 기여한 것은 outcome에 기반한 퍼포먼스 데이터가 아니라 “회전수”라는 스킬 데이터였습니다.    


요즘 스카우팅 데이터에는 점점 더 자주 회전수에 대한 언급이 늘어나고 있습니다.  최근들어 타자의 스카우팅 리포트에 타구속도(exit speed)에 대한 항목이 부쩍 늘어난 것처럼 말입니다.  

(실제로 많은 MLB 스카우트나 분석가들에게 KBO리그 출신 박병호의 raw-power를 설명하는 좀더 나은 데이터는 50개+의 홈런수가 아니라 그의 타구속도이기도 합니다.  시험적인 적용이나마 2015시즌 목동구장에 트랙맨 시스템이 설치된 것에 그가 감사할 이유도 약간은 있을 겁니다.  실제로 적어도 2-3시즌 이상의 outcome 데이터가 필요하지만 그나마 리그가 바뀌면 거의 쓸모없어지는 홈런기록과 달리 타구속도는 휠씬 더 적은 샘플사이즈로 타자의 raw-power에 대한 쓸모있는 정보를 줍니다.)


정보의 가치는 결국 "비대칭성"에서 만들어진다


오클랜드의 대박 이후 너나 할 것 없이 OPS에 몰려들었던 것처럼 요샌 회전수 높은 투수들의 재발견 및 재평가가 유행입니다.   누가 두번째 신데렐라가 될까요?  하지만 그렇게 간단한 문제는 아닙니다.


트랙맨의 프로토타잎 데이터는 사실 오래전부터 MLB의 모든 구단에게 제공되고 있었습니다.   휴스턴이 가진 것은 남들에겐 없던 “회전수” 데이터가 아니라 그 안에서 새로운 뭔가를 발견해낸 “인사이트”였습니다.   모두가 가진 데이터에서 아무도 모르는 새로운 승리요인을 찾아낸 것은 데이터가 아니라 데이터를 다루는 기술이었다는 것입니다.   최근 몇년 사이 분석에 대해 가장 공격적이고 적극적인 투자를 해온 휴스턴의 조건이 그런 대박을 가능하게 했겠지요.


두번째나 세번째 콜린 맥휴가 발견될 수 있을겁니다.  하지만 이젠 그 발견이 휴스턴이 거둔 성공만큼의 가치를 갖기는 어려울 겁니다.  OPS의 중요성을 아무도 모를 때 빌리빈이 싸게 사들일 수 있던 선수들이 이젠 리그에서 가장 비싼 선수가 된 것 같은 변화가 이제 곧 “회전수”에 관해서도 반복될 겁니다.


어쨌든, 국면은 새로와졌습니다.  충분히 많은 양의 outcome 데이터 없이, 뭔가를 발견할 수 있는 가능성이 생겨났기 때문입니다.  이 시사점은 KBO에는 좀더 의미심장합니다.  실전모드의 많은 경기 데이터가 쌓이는 미국의 AAA 시스템과 달리 한국은 비주전급 선수의 outcome 데이터가 충분히 누적되기 어려운 조건입니다.  게다가 옥석을 가리고 말고 할 선수층 자체가 너무 얇습니다.  당연히 선수거래시장은 뻔하고 기껏 형성되는 FA시장에는 데이터가 쓰일 여지가 그리 많지 않습니다.  그보다는 “마음이 담뿍 담긴 수표”가 힘을 쓰겠죠.


하지만 만약 콜린맥휴의 사례에서 그랬던것처럼 outcome 데이터가 아니라 skill 데이터를 기반으로 선수를 평가할 수 있다면 그건 좀 다른 상황이 될 수도 있습니다.


임정우는 콜린맥휴 처럼 회전수가 많은 커브를 던진다


회전수?  콜린맥휴는 리그평균보다 휠씬 높은 커브볼 회전수를 가졌고 (아마도) 그게 성공의 요인일 수 있습니다.  KBO 투수 중 커브볼 회전수가 가장 높은 이는 임정우입니다.  2015년 트랙맨이 측정한 결과를 기준한다면 700개 중 109개를 던진 그의 커브볼은 회전수에서 리그 1위입니다.    


콜린맥휴는 휴스턴 이적 후 60% 정도였던 패스트볼 비중을 30%대로 줄었고 대신 슬라이더와 커브 등 브레이킹 볼 비중이 휠씬 높아졌습니다.  7점대 였던 ERA는 14년 2,73 15년 3.89 로 낮아집니다.  물론 이 모든 것이 단지 커브볼의 회전수가 만든 마법일 리는 없습니다.  휴스턴의 분석팀이 회전수가 높은 공을 던지는 투수를 단순히 찾아내는 것에 그치지 않고 그 공을 어떻게 활용해야 하는지에 대해 관심을 가진 결과일 것입니다.    


그렇다면 임정우도 콜린맥휴가 될 수 있을까요?  글쎄요.  다른 점도 있을겁니다. 임정우의 패스트볼 회전수는 리그 평균보다 낮습니다.     


야구가 비디오게임처럼 간단할 리는 없지만 이전에는 없던 새로운 정보들이 생겨나고 있는 것은 분명합니다.  그리고 누군가는 그걸 이용해서 대박을 내고 있죠.  


세이버메트릭스도 변하고 있습니다.  outcome를 측정한 퍼포먼스 데이터에서 skill based 데이터에 대한 관심이 점점 커지고 있으며, 큰 샘플사이즈 데이터 뿐 아니라 심지어 N=1 데이터에 대한 관심이 생겨납니다.  바이오메카닉스와 결합하며 부상위험을 사전에 감지하거나 관리하는 쓰임을 열정적으로 찾아내려 애쓰고 있습니다. 




인사이트가 없으면 데이터는 그냥 숫자더비 


KBO에서는 어떨까요?  어떤 면에서는 여전히 딴세상 이야기처럼 들리기도 합니다.  하지만 그렇지 않은 부분도 있습니다.  빌제임스 주도로 Project ScoreSheet가 출범하며 Play by Play 데이터의 활용이 가능해진 것이 대략 80년대 중반 이후입니다.  한국에서 그렇게 되기 까지 30년이 넘게 더 필요했습니다.  


반면 올해 초에야 비로서 MLB공식 런칭된 트랙맨 시스템은 벌써 잠실, 목동 2개 구장에서 시험운영을 마쳤습니다.  물론 내년엔 어찌될지 모르겠습니다.  그렇다해도 30년이 넘었던 격차가 이제 몇년 또는 몇달의 간격으로 좁혀진 부분이 있습니다.


스탯티즈의 오픈 이후, 야구기사에서 WPA와 연관된 분석을 보는 것이 심심찮아졌습니다.  어디까지 갈 수 있을지는 몰라도 변화는 확실히 시작되었습니다.  이젠 인사이트의 문제입니다.  (물론 정작 프로구단을은 인사이트는 커녕 초보적인 데이터 조차 참고하지 않는 듯 합니다만)


더 많은 데이터, 더 디테일한 분석은 그런데, MLB와 KBO 사이의 차별성을 더 드러나게 합니다.  통계적 분석이란 기본적으로 분석대상의 분포에 의존합니다.  리그의 희소성이 다를 때 분석은 달라집니다.  KBO FA시장의 가격을 MLB식의 WAR로 설명할 수 있을까요?  어려울겁니다.  


구단이 멍청이라서 그런 것만은 아닙니다.  서로 다른 희소성은 서로 다른 가치평가방법을 필요로 합니다.  한 철 시장으로 라인업을 통째로 바꿀 수도 있는 리그와, 주전급 이상의 FA가 한 철에 기껏 3-4명이 전부인 리그가 같은 가치결정 메카니즘에 의해 움직일 리가 없습니다. 


우린 어디까지 갈 수 있을까요?