본문 바로가기
diegobaseball
ANALYSIS

12가지 키워드로 이해하는 [세이버매트릭스] - 2/2

by 토아일당 2015. 1. 28.

 topic   RC XR BABIP FIP 타율 타점 OPS 보로스맥크라켄 톰탱고 DIPS 도루 희생번트 머니볼 클러치히터 



(앞에서 계속  http://baseball-in-play.com/26 )


7. 타율도 아니고 타점도 아닌 새로운 지표 - 득점가치 : RC와 XR 


투수에 대한 세이버매트릭스의 연구들이 피칭으로부터 [운]과 [수비력]을 걸러내서 순수하게 투수 개인의 능력과 책임을 측정할 수 있는 지표를 찾아내기 위한 것이라면, 타격에 대한 연구는 [상황]으로부터 독립적인 [타자 개인]의 득점기여도를 측정하기 위한 것입니다.


주자만루의 단타는 2점을 만들지만 주자없는 상황의 홈런은 1점 밖에 만들지 못합니다.  즉 투수 혼자 마운드에서 플레이하는 것과 달리 3개의 아웃카운트를 담보로 타자들이 차례로 타석에 서는 타격은 상황에 따라 결과가 달라집니다. 


지난 시즌 오지환은 474번 타석에 나와 104개의 안타, 20개의 2루타, 8개의 3루타, 8개의 홈런, 51개의 볼넷을 얻었습니다.  타율은 0.262 입니다.  그런데 야구에서 타자의 임무는 결국 더 많은 득점을 만드는 일이며 그렇다면 타자의 평가지표는 한시즌 동안 몇점의 득점에 기여했는지에 말해주어야 합니다.  그런데 수많은 타격지표 중 어떤 것도 “정확히” 몇점의 득점에 기여했는지 말해주지 않았습니다.  


타점과 득점이라는 것이 있긴 했지만 그것은 오지환 개인의 능력과 책임이 아니라 앞 뒤 타자의 능력과 책임에 의해 만들어진 상황의 결과이기 때문에 타자 개인의 평가지표일 수가 없습니다.


그래서 세이버매트릭스는 평균적인(=중립적인) 상황에서 볼넷, 단타, 2루타, 3루타, 홈런 각각이 몇점의 득점가치를 가지는지 측정합니다.  그리고 그렇게 계산된 각각의 득점가치를 가중치로 하여 한명의 타자가 중립적인 상황에서 얼만큼의 득점을 만들어내는지 측정하려 했습니다.


난해한 통계학적 기술이 필요한 계산과정을 통해 비교적 널리 알려진 몇 개의 지표가 고안되었습니다.  가장 유명한 것이 빌제임스가 고안한 RC-Run Created 이고, 짐 퍼타도의 XR-eXtraporated Runs 같은 것도 있습니다.  계산방법의 차이가 좀 있긴 하지만 이들은 결국 볼넷부터 홈런까지 각각의 타격이벤트에 대해 계산된 가중치를 적용해서 [득점] 가치로 계산하는 것입니다.  RC나 XR의 경우 타격이벤트 뿐 아니라 도루와 도루실패, 병살타, 희생번트와 희생플라이와 같은 주루이벤트, 팀배팅 이벤트까지 포함합니다. 


지표마다 약간 차이가 있긴 하지만 대체로 볼넷 하나는 단타에 비해 70% 정도의 가치를 가지며 홈런은 단타 하나에 비해 2.8-2.9배 정도의 가치를 가진다고 알려져 있습니다.  


선형가중치를 사용하는 짐 퍼타도의 XR이 사용하는 각 타격결과별 득점가치 가중치는 아래와 같습니다.  참고로 선형회귀분석이 아닌 뒤에 설명할 24PA 방식으로 구한 KBO05_11 기간 동안의 가중치도 함께 붙입니다.



1H

2H

3H

HR

BB

XR

0.49

0.79

1.06

1.42

0.34

KBO5_11

0.48

0.84

1.18

1.46

0.33

*** RC, XR, wOBA 어느 것이든 결국 타격결과별 가중치를 사용하는데, 여기서 주의할 점은 이 가중치는 절대불변의 것이 아니라 특정 기간 특정 리그의 환경에 따라 다소 달라질 수 있다는 것입니다.  위의 표에서 보는 것처럼 KBO에서는 장타의 가치가 좀더 높고 불넷의 가치가 좀더 낮습니다.  희소성의 차이 때문인데, KBO는 대체로 리그평균장타율이 낮고 출루율이 높은 리그이기 때문입니다. 


전통적인 지표들에 비해 득점가치 스케일의 세이버매트릭스 지표들은 여러가지 장점을 가지고 있습니다.   타율, 홈런, 도루 처럼 성격이 다른 지표들은 성향이 다른 타자들 중 누가 더 가치있는 선수인가 비교하기 어렵습니다.   A는 타율이 높고, B는 타율은 낮지만 홈런이 많을 때 이 둘을 비교하기 여렵습니다.  하지만 타자란 결국 득점을 올리는 것이 존재이유입니다.  안타든 홈런이든 도루든 그 목적은 결국 더 많은 득점을 만든다는 점에서 같습니다.  따라서 득점기여도라고 하는 하나의 통일된 척도로 그들의 플레이를 측정할 수 있을 때 어떤 타자의 득점기여도가 높은지 말할 수 있게 됩니다.


RC XR 등 득점기여도에 관한 포스팅

RC, 누가 더 많은 득점에 기여하는 타자인가? 

RC27, 빌제임스가 발견한 득점의 본질 

XR XR27, 햇병아리 세이버메트리션의 도전

2013년 득점기여도가 가장 높은 타자는? : XR, RC

엘지트윈스 2014 타자 득점기여도와 15시즌 공격력 예상



8. Play by Play stat. - 기대득점Run Expected와  톰 탱고의 24PA 혁명


2002년 the Book: Playing the Percentages in Baseball 을 출간한 톰 탱고에 의해 세이버매트릭스의 발전은 새로운 국면을 맞습니다.  초기부터 압도적인 영향력을 발휘한 빌 제임스에 비할 정도는 아니겠지만 2000년대 이후에 진행된 연구에서 톰 탱고의 위상은 그에 필적할 만 합니다.


예를들어 볼넷, 단타, 홈런 등 타격 및 주루이벤트의 득점가치 가중치를 계산하는 그동안의 방법은 대체로 선형회귀분석을 이용하는 것입니다.   하지만 그럼에도 불구하고 야구경기에서 생겨나는 복잡한 상황의 다양성은 이런 연구의 장애물이었습니다.

그런데 톰 탱고는 이 “야구경기 상황의 수없이 복잡한 다양성”을 아주 간결하고 명쾌하게 해결해버렸습니다.  즉 경기 중 상황은 결국 3종류의 아웃카운트 상황(무사, 1사, 2사)과 8종류의 주자상황(없음, 1루, 2루, 3루, 12루, 13루, 23루, 만루) 의 조합 즉 24가지 타석상황으로 귀결될 수 밖에 없다는 획기적 발상이었습니다.

그는 이 모델을 이용해서 그동안 고도의 통계학적 기술을 통해서 그러나 어쩔 수 없는 오차를 가진채로 계산하던 타격이벤트별 득점가치 같은 것을 아주 명료하고 직관적인 과정으로 해명해냈습니다.  그 결과물이 wOBA 인데 톰 탱고 이후의 거의 대부분의 세이버매트릭스 지표는 이전의 RC, XR 같은 회귀분석을 통해 도출된 지표 대신 톰 탱고의 방법으로 계산된 wOBA를 기반으로 사용하기 시작했습니다.  세이버매트릭스 지표의 대명사처럼 여겨지는 WAR(대체선수대비 승리)도 wOBA를 사용합니다.


톰 탱고의 24PA 모델의 진정한 가치는 거기에 그치지 않습니다.  타격이벤트의 득점가치 뿐 아니라 24PA 상황을 전후로 일어나는 야구의 거의 모든 플레이들, 예컨데 도루, 희생번트, 진루타, 추가진루의 정확한 득점가치를 계산할 수 있게 만들어준 것입니다.  


24PA 상황은 각각 통계적으로 측정할 수 있는 득점기대치 Run Expectancy 를 가집니다.  예를들어 무사1루에서 기대할 수 있는 득점은 평균적으로 0.887점입니다.  (KBO05_11시준)  그리고 무사2루의 기대득점은 1.226점 입니다.  따라서 무사1루에 2루도루를 성공할 경우, 0.887 의 기대득점 상황이 1.226 의 기대득점 상황으로 바뀐 것이고 그렇다면 이 도루의 득점가치는 0.339 만큼의 기대득점 증가효과를 가지고 있으니, 0.339점의 가치를 가진다는 것입니다.  


매 경기당 어떤 선수가 몇개의 타석, 타수, 안타, 볼넷 같은 것을 남겼는지 기록하는 전통적인 박스 스코어 기록방식에서 더 발전하여 매 타석에 대한 구체적이고 연속적인 야구경기기록 즉 play by play 데이터들이 기록되고 공개되면서 톰 탱고의  24PA 모델 같은 것이 고안될 수 있었고 세이버매트릭스에도 획기적인 변화가 나타났습니다.  이밖에도 24PA 모델을 기반해서 Win Probability Added 같은 시스템 역시 PBP 데이터를 이용해서 고안되었습니다.    


톰탱고의 기대득점모델 및 WPA에 대한 포스팅

기대득점Run Expected와  TomTango 24PA 혁명  http://baseball-in-play.com/70

게임의 재구성: 넥센전 8회말 봉중근의 병살유도의 가치 http://baseball-in-play.com/21

KBO 통계 기반의 wOBA가중치 계산  http://baseball-in-play.com/54



9. Adjusted Stat. 조정지표들 


더 많은 통계들이 더 진지하게 검토되면서 세이버매트리션들을 아주 중요한 과정을 필요로 하게 됩니다.  서로 다른 시즌의 통계들이 공정하게 비교되어야 할 필요성을 느낀 것입니다.  

2013시즌 노경은의 ERA는 3.84 였고 14시즌 우규민의 ERA는 4.04 였습니다.  그렇다면 노경은이 우규민보다 더 좋은 성적을 냈다고 말할 수 있을까요?


KBO 14시즌은 다시없던 타고시즌이었고 리그평균ERA가 5.21 에 달했습니다.  반면 13시즌의 리그평균ERA는 4.32 였습니다.  따라서 이 두명의 투수를 비교하기위해서는 그 기록이 작성된 시즌의 특성에 따라 지표를 [보정adjusted] 하는게 필요합니다.  계산방법은 (선수ERA/리그평균ERA) 입니다.  따라서 리그평균과 같은 ERA를 기록한 선수의 조정ERA(ERA+ 로 표기합니다)는 100이 되고 100보다 크면 평균보다 낮은 ERA, 100보다 크면 평균보다 많은 ERA를 뜻합니다.  


조정ERA로 계산했을때 우규민의 ERA+는 1.29  노경은은 1.13 으로 우규민이 더 좋은 성적을 기록한 것을 알 수 있습니다.

그런데 선수의 기록은 시즌에 따른 편차 뿐 아니라 구장의 특성에 따른 편차도 조정할 필요가 있습니다.  만약 트윈스이 홈구장 잠실처럼 외야펜스가 멀고 파울지역이 넓어 투수에게 유리한 구장환경은 대체로 ERA에서 유리합니다.  이것을 보정해주는 것이 파크팩터입니다.  해서 조정ERA(ERA+)의 정확한 계산식은 (선수ERA/리그평균ERA*파크팩터) 입니다.  


통계를 이용한 객관적 야구지식을 목표하는 세이버매트릭스 관점에서 이와같은 시즌과 구장에 따른 편차보정은 당연히 필요합니다.  투수의 지표 뿐 아니라 타자의 지표 역시 같은 방식의 조정지표를 가지고 있으며 계산식도 같습니다.


 

10. 통계적 쏠림과 클러치 히터라는 허깨비


세이버매트릭스의 대두 이래로 가장 뜨거웠던 논란 중 하나는 클러치히터 즉 “찬스에 유독 강한 타자란 과연 존재하는가?”에 대한 것입니다.   세이버매트리션에 의하면 “클러치히터”란 허상이며 존재하지 않습니다.  어떤 선수가 한시즌이나 두시즌 정도의 기간 동안 자신의 타율보다 주목할만큼 높은 득점권타율 또는 경기후반의 박빙상황에서의 높은 타율을 기록하긴 하지만 그리고 그런것을 근거로 찬스에 강한 타자라는 평판이 만들어지긴 하지만, 그것은 단지 통계적인 쏠림으로 생겨나는 착시일 뿐이라는 것입니다.


전통주의자들의 격렬한 반대를 이겨내고 그들은 대체로 그 주장의 객관성을 증명하는데 성공했습니다.  일시적으로 높은 클러치 타율을 기록하는 선수들이 있긴 하지만 누적타석이 많아지면 예외없이 자신의 커리어 타율과 비슷해졌기 때문입니다.  게다가 클러치히터 옹호론자들이 찾아낸 몇명의 예외들 조차, 희생플라이 기록 (즉, 보통때라면 플라이아웃으로 기록되어야 하지만 3루에 주자가 있었던 이유로 타수 카운트에서 제외되어 결과적으로 타율 상승의 요인이 됨) 을 제거할 경우 차이가 사라져버렸습니다.


*** 물론 최근에는 더 세밀한 연구가 진행되어 “클러치히터가 존재할 수는 있지만 그 영향력이 워낙 미미해서 고려할만한 것이 아니다” 정도로 정리된 면도 있습니다. 


우리는 야구중계를 들으며 “저 선수는 지난 시즌 24번의 만루상황에서 무려 4할이 넘는 타율을 기록했습니다.  만루에 유독 강하기 때문에 투수는 조심해야 합니다” 같은 해설을 듣곤 합니다.  통계학적으로 말한다면 어림반푼어치도 없는 무식한 소리입니다.   또 통계학적으로 말한다면 동전을 세번 던졌는데 세번 다 앞면이 나왔다는 이유로 이 동전은 특별히 앞면이 나올 확율이 높은 희귀한 동전이라고 말하는 것과 같습니다.   


물론 방송해설가들이 그것을 몰라서 그렇게 말했다고 생각하지는 않습니다.  그렇게 말하는 것이 좀더 흥미롭게 들리기 때문이겠지요.


타율이라는 야구통계의 지표가 통계학적으로 안정된 값이 되기 위해서는 최고 750타석 아마도 1000타석 이상의 누적데이터를 필요로 합니다.  생각보다 휠씬 큰 숫자입니다.  한시즌 풀타임으로 출전한 400타석 이상의 시즌기록조차 통계학적으로 신뢰할 만한 사이즈의 데이터는 아니라는 것입니다.  득점권 타율 같은 것도 마찬가지입니다.  예를들어 1000타석 이상 주자만루 상황에 나와 예외적으로 높은 타율을 기록한 타자가 있다면 적어도 “통계학적으로” 그 타자는 만루에 강한 타자라고 불릴 수 있습니다.  하지만 24번의 타석통계로는 턱도 없이 모자라며 100타석이나 300타석이라 해도 그렇습니다.


“통계적 쏠림”은 야구 뿐 아니라 다른 분야에 적용할 떄도 늘 중요하고 예민한 문제입니다.  통계라는 도구가 가진 그럴싸함은 그것이 객관적 진실인 것처럼 느끼게 하는 (흑)마법을 가졌으며 그런 이유로 수도없이 많은 경우 통계는 객관적 지식을 찾아내기 보다는 숨기고 왜곡하는데 사용될 수 있습니다.


이런 이유로 진짜 세이버매트리션들은 이런 기록을 이용할 때 그 통계적 신뢰성을 늘 검증하려 합니다.  반면 어떤 사이비 추종자들은 숫자와 통계가 풍기는 권위를 빌어 허세를 떨고 통계학적으로는 의미없는 숫자들을 가지고 허세를 부리고 그것도 모자라 선수들을 모욕하는데 사용합니다. 


세이버매트릭스의 성과물이 대체로 통계적인 것이라는 이유로 생겨날 수 있는 반대편의 편견과 오해도 있습니다.


다시 클러치히터 케이스를 보자면 세이버매트리션들이 조사하고 테스트한 대상은 당연히 클러치상황의 타석이 MLB기준 최소 750타석 또는 1000타석 이상의 선수들이었습니다.  그정도의 경력을 가진 선수라면 최소 5년이나 7년 이상의 풀타임 주전으로 뛰는 수준급 선수라는 뜻입니다.  따라서 “클러치히터란 없다” 즉 클러치 상황에서 유독 강해지는 타자는 없다는, 적어도 통계적으로 검증된 세이버매트릭스의 견해는 “MLB의 최소 5년-7년 이상 풀타임 주전을 뛴 선수들 중에서”라는 단서가 붙어야 마땅합니다.  그보다 경력이 짧은 선수들을 “통계적 검증대상”이 될 수가 없기 때문입니다.  즉, 경력이 짧은 신인급 선수들의 클러치 상황에서의 하이퍼포먼스는 있다도 아니고 없다도 아니고, 통계적 분석대상이 될 수 없다 라고 하는 것이 맞습니다.   신인급, 즉 통계적인 데이터가 쌓여감과 동시에 성장하고 변화하는 선수들의 경우 통계라는 도구는 전통적인 스카우팅 스킬보다 못할 때도 많습니다.  


세이버매트릭스가 만들어낸 탁월하고 혁신적인 통계적 도구들을 첫째, 애초에 그것이 설계된 통계학적 전제와 한계 안에서 사용되어야 하며, 둘째 그것이 통계적으로 분석하고 검증할 수 있는 범위에 한해서 그렇다는 뜻으로 이해되어야 합니다.   통계적인 사실이라고 해서 일반적으로 객관적으로 옳다고 여기는 것은 세이버매트릭스 이전에 통계에 대한 잘못된 관점입니다.


11. 수비지표들


수비능력에 대한 전통적인 측정지표는 필딩률(수비기회 중 실책하지 않은 비율)이 거의 유일했습니다.  그런데 이 지표는 수비범위가 넓은 야수의 능력을 측정할 수 없다는 단점이 있습니다.  야구기록에서 수비실책이란 매우 소극적이고 보수적인 개념이라 느리고 둔한 수비수가 손도 대지 못하고 흘려보내는 타구에 대해서는 아무런 기록도 남기지 않습닏다.  반면 (기록원이 가급적 정확하게 판단하려하긴 하지만) 수비범위가 넓고 순발력이 좋은 수비수가 거의 다 쫒아가다 놓치는 타구 또는 어렵게 겨우 잡아서 송구를 하다 범하는 실수 같은걸 오히려 수비실책으로 기록하게 되는 경우도 있습니다.  


한 연구결과에 따르면 야구에서 투수,수비,타격,주루 각각이 차지하는 비중은 25:25:45:5 라고 합니다.  그에비하면 수비능력을 측정할 수 있는 마땅한 지표가 없다는 것은 아쉬운 일이었습니다.


해서 많은 세이버매트리션은 신뢰할만한 수비지표를 고안하기 위해 노력해왔습니다.  빌제임스의  RF-Range Factor 는 그중 하나이며 꽤 오랬동안 유일하게 쓸만한 수비지표로 사용되어 왔습니다.   레인지팩터는 수비수가 한경기 동안 몇개의 아웃카운트에 관여하는가, 즉 그가 한경기 중 잡아내는 아웃카운트가 몇개인가를 측정합니다.  한두경기에서는 유독 특정 포지션으로 타구가 몰릴 수도 있겠지만 한시즌 전체 경기당 27개의 아웃카운트를 잡아내다보면 포지션 별로 거의 비슷한 정도의 타구가 날아갈 수 밖에 없으니, 아웃카운트에 많이 관여하는 (=수비범위가 넓은) 수비수일 수 있다는 아이디어입니다.


RF는 전통적인 야구기록방식에 의존했을때, 디자인할 수 있는 가장 나은 지표인 것이 사실입니다.  하지만 투수의 탈삼진 능력, 플라이볼과 그라운드볼의 비율 같은 것에 따라 데이터의 쏠림이 생겨나는 한계도 가지고 있었습니다.  또 전체 수비력이 좋은 팀이나 나쁜 팀이나 한게임 전체를 통해 똑같이 27개의 아웃카운트에 해당하는 RF만을 부여받기 때문에 서로 다른 팀의 동일 포지션 수비수의 능력을 비교하는데도 오차가 생길 수 있습니다. 


레인지팩터에 대한 다른 포스팅

이대형의 수비범위 - 레인지팩터를 이용한 "통계적" 회고  http://baseball-in-play.com/39

오지환은 정말 수비범위가 넓은 유격수인가?   http://baseball-in-play.com/10


새로운 수비지표는 좀 다른 방식의 기록방법이 사용되면서 가능해졌습니다.  

세이버매트리션들은 기록과 통계를 해석했을 뿐 아니라 스스로 야구경기의 기록방법을 개선하고 진화시켜왔습니다.  


(다른 기회에 자세히 이야기하려 하는데, 그들은 냉정하고 집요한 분석가 였을뿐 아니라 열정적인 행동가이기도 했습니다.  야구통계의 천국이라 불려도 좋은 지금의 미국야구환경과 달리 세이버매트릭스의 초기에는 그들 역시 기록과 통계를 구할 수 없었던 어려움에 직면했었습니다.  그때 빌제임스의 주창으로 시작된 것이 기록지프로젝트 Project Scoresheet 였습니다.  이것은 팬들이 스스로 전국적인 네트워크를 만들어 각각 모든 경기의 기록을 분담하고 그것을 한곳에 모아 다시 모두에게 공개하여 공유하는 방식을 취했습니다.  지금 세이버매트릭스의 허다한 성과는 바로 그런 자발적인 기록지 작성 및 공유에 기반하여 만들어졌습니다) 


지금 야구통계에서 가장 널리 사용되는 UZR-Ultimate zone rating 이라는 수비지표는 Project Scoresheet  의 batted ball 기록방식으로부터 가능해졌습니다.   batted ball 의 결과 뿐 아니라 그것이 향한 위치를 그라운드 페어지역과 파울지역을 포함한 64개의 구역으로 나누어 기록한 데이터를 가질 수 있었던 것입니다.  그리고 64개 구역 중 각각으로 타구가 날았갔을 때의 평균적인 결과를 기준으로 그 타구를 처리한 수비수에게 플러스나 마이너스 점수를 부여하는 방식입니다.   단순화시켜 설명한다면 우중간 깊은 구역인 89D 영역으로 타구가 날아갔을 경우 평균적인 아웃확율이 15% 였는데 우익수가 그 타구를 잡아냈다면 +85점을 받고 반대로 놓쳤다면 -15점을 받는 식입니다.   즉 타구의 난이도를 고려한 수비평가지표입니다.


전통적인 박스스코어 방식이 아니라 palybyplay 로그나 batted ball location code 와 같은 진보적인 기록시스템이 정착되면서 이전에는 통계적 분석의 사각지대였던 수비능력에서도 세이버매트릭스의 영향력이 생겨나게 된 것입니다.


 

12. KBO와 세이버매트릭스


세이버매트릭스라는 단어는 SABR미국야구연구회 에서 왔습니다.  SABR 이라는 고유명사가 포함된 단어이다보니 KBO의 세이버매트릭스 같은 말을 쓸때 약간 어색하게 느껴지긴 합니다.  하지만 그 이상으로 중요한 것은 리그환경 차이로 인한 조정의 필요성입니다.


WAR대체선수대비 승수기여도는 많은 세이버매트릭스 애호가들이 가장 선호하는 지표입니다.  어떤 선수의 가치를, 그 선수가 만들어내는 [승수]라고 하는 절대적인 척도로 표시할 수 있다는 점이 그들을 매료시킨다고 생각합니다.


그런데, WAR은 야수의 경우 타격, 주루, 수비 세가지 측정지표를 종합해서 구하는데, KBO 선수들의 경우 타격을 제외하고 주루 및 수비기록 측정의 지표를 구할 수가 없습니다.  게다가 WAR은 2가지 보정과정을 거쳐 승수 기준으로 scaling 되는데 첫째가 포지션 보정 둘째가 대체선수 수준입니다.


포지션 보정의 경우 수비난이도가 높은 포수나 유격수는 플러스, 반대의 경우인 지명타자나 코너 외야수는 마이너스 값을 적용합니다.  그런데 이 보정상수의 크기는 리그의 선수층과 선수수준에 따라 달라집니다.  즉 리그가 달라지면 보정상수도 달라져야 하는데 대부분 MLB의 상수를 그대로 사용합니다.


대체선수레벨의 경우 더 심각한 문제를 남깁니다.   선수층이 매우 두꺼운 MLB와 달리 KBO는 주전과 백업의 격차가 매우 큽니다.  13시즌 FA로 팀을 떠난 이대형의 경우 그의 계약 즈음에 어떤 야구기자는 (정체불명의) WAR계산값을 근거로 이대형의 WAR는 마이너스이며 따라서 그는 경기에 출전할수록 팀에 손해를 끼치는 수준이라고 주장한 적이 있었습니다.  

사이비 세이버매트릭스의 가장 나쁜 예였다고 생각합니다.  어떤 지식도 항상 옳을 수 없으니 오해와 왜곡의 여지는 있는 법이지만 그것이 누군가를 비난하는데 사용된다면 특별히 더 주의가 필요합니다.  


WAR는 [승리기여도]라는 아주 임팩트있고 명확해보이는 척도를 가지고 있습니다.  그리고 아주 복잡하고 이해하기 어려운 계산과정을 통해 계산됩니다.  물건너온 미제 최신이론이라는 후광효과까지 가지고 있습니다.  이 세가지가 합쳐져서 상승작용을 일으키며 허다한 야만과 무지 그리고 폭력이 빚어진 것입니다.  


도루나 희생번트와 같은 스몰볼에 대해 세이버매트리션은 대체로 부정적인 입장을 견지해왔습니다.  교조 빌제임스이 세이버매트릭스 10계명은 그 첫번째에 “번트하지 말지어다”라고 말했습니다.  확실히 전통적인 시각에 비해 세이버매트리션의 객관적 연구들은 도루나 희생번트의 가치를 재조명할 필요가 있음을 보여주었습니다.


톰 탱고는 theBook에서 도루의 손익분기점은 73%이며 따라서 그 이상의 성공률을 기록하지 못할 경우 많은 도루는 오히려 팀에 무조건 손해가 된다고 말했다. --- 고 잘못 알려졌습니다.

문제는 이 새로운 지식이 아니라 그것을 사용하는 방법입니다.  우리는 모두 모자란 존재이고 실수를 할 수 있습니다.  하지만 실수를 할 수 있다는 사실을 잊고 자신이 아는 것으로 다른 누군가를 비난하고 공격하는 것은 삼가할 일입니다.  실제로 톰 탱고 혹은 그와 비슷한 MLB의 스몰볼 연구를 근거로 적지 않은 (사이비) 세이버매트릭스 추종자들은 KBO의 역대 도루순위에 이름을 올린 선수 하나하나를 끌어내서 그의 성공율을 가지고 비난하고 조롱했습니다.  


도루나 희생번트의 가치는 확실히 전통적인 지식에 비해 낮습니다.  하지만 MLB에서의 가치와 KBO에서의 가치는 좀 다릅니다.  그리고 시기에 따라서도 역시 다릅니다.

05_11KBO 기간 중 무사1루의 2루도루는 손익분기점 63% 정도로 MLB보다 10% 정도 낮습니다.  그런데, (계산해보진 않았지만) 전에 없던 타구현상의 2014시즌의 경우라면 거꾸로 MLB보다 손익분기점이 도 높았을 수도 있습니다.  


KBO 05_11 7시즌 기준의 wOBA득점가치, 도루, 희생번트 관련 분석 

 [세이버메트릭스 onKBO] 리그 성향과 가중치조정   http://baseball-in-play.com/54

한국프로야구에서 도루의 가치와 손익분기점   http://baseball-in-play.com/56

  KBO의 희생번트 효율성에 대한 통계적 실험  http://baseball-in-play.com/73


세이버매트릭스란 결국 우리가 야구를 이해하고 즐기기 위한 방법 중 하나입니다.  따라서 지나치게 그 정확함과 엄격함을 요구하는 것도 그저 일개 야구팬들 입장에서 과한 일입니다.   하지만 같은 이유로 그 도구를 이용해서 누군가를 비난하고 공격하는 것 역시 부당한 일입니다.   특히 그에 사용된 지식이 잘못이해된 것이라면 더욱 그럴겁니다.  


-------------


좀 유치한 표현이지만 “이것만 할면 세이버매트릭스 충분히 즐길 수 있다” 정도의 취지로 시작한 글을 마칩니다.


앞서도 말했지만 필요한 것은 배우고 익히는 것이 아니라 공감하며 즐기는 것이라 생각합니다.  야구는 다른 어떤 경기보다 통계와 같은 데이터가 가깝습니다.  따라서 그걸 좀더 이해해는 것이 야구를 좀더 즐길 수 있는 방법 중 하나일 수 있습니다.  물론 취향의 문제지만요.  그에 도움이 되길 바랍니다.