본문 바로가기
diegobaseball
세이버메트릭스 도서관

XR XR27, 햇병아리 세이버메트리션의 도전 - 세이버메트릭스

by 토아일당 2015. 2. 10.

[Baseball Stats Glossary 3]

XR: Extraporated Runs by Jim Furtado, 햇병아리 세이버메트리션의 도전 



XR:Extraporated Runs은 [추정득점] 이라고 부르면 될거 같습니다.  빌제임스가 고안한 RC 처럼,
선수개인의 안타, 홈런, 볼넷, 도루, 희생타 등등을 갯수를 이용해서 그 선수가 결과적으로 몇점의 득점을 만들어냈는지 득점생산성을 측정하기 위한 세이메트릭스 타격스탯입니다.  
1999년 [The 1999 Big Bad Baseball Annual] 를 통해 공개되었으며 짐 퍼타도Jim Furtado 가 만들었습니다.


1980-90년대 세이버메트리션에게 가장 중요한 화두는, 상황에 의존하여 1점도 되고 2점도 되고 4점도 되는 타자의 타격이벤트를 상황중립적으로 분석하여 그 선수가 몇점을 생산하는지 측정할 수 있는 가장 정확한 방법을 찾아내는 것이었습니다.  
널리 사용되는 [타점]이라는 지표는 전형적으로 상황의존적인 지표입니다.  더 많은 타점은 보통 앞서 타석에 선 동료들의 도움이 있었기 때문에 가능합니다.  이것은 선수의 능력 혹은 가치를 과대평가하거나 과소평가하게 만듭니다.  그러나 세이버메트릭스 선언에 언급된 것처럼, 야구통계는 선수에 대한 평가는 감독이나 그의 동료가 아니라 그 스스로 한 일에 대한 것이어야 합니다.
 
계산방법은 다음과 같습니다.
XR - Extrapolated Runs
=  (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (HP+TBB-IBB)) +(.25 x IBB)+ (.18 x SB) + (-.32 x CS) + (-.090 x (AB - H - K)) + (-.098 x K)+ (-.37 x GIDP) + (.37 x SF) + (.04 x SH)

XRR - Extrapolated Runs Reduced
=  (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.33 x (HP+TBB)) + (.18 x SB) + (-.32 x CS) + ((-.098 x (AB - H))

XRB Extrapolated Runs Basic
=  (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (TBB)) + (.18 x SB) + (-.32 x CS) + (-.096 x (AB - H))

길고 복잡해보이는 수식에도 불구하고 구조는 아주 간단하고 명료합니다.  
1B(단타) 2B(2루타) 에서부터 홈런, 볼넷, 사구, 고의사구, SB도루, CS도루실패, 범타아웃(AB-H-K) , 삼진아웃, 병살타, 희플, 희타 이상 득점에 영향을 미칠 수 있는 모든 야구경기의 이벤트들에 정해진 가중치를 곱해서 전부 더합니다.  

득점에 대해 플러스 가치가 있는 이벤트에는 플러스 가중치가 붙고 마이너스 가치가 있는 이벤트에는 마이너스 가중치가 붙습니다.  각 이벤트에 부여되는 가중치의 크기는 그 이벤트의 득점가치를 의미합니다.  

단타는 0.5이고 볼넷은 0.34이니 볼넷은 대략 단타에 비해 68%의 가치이며 홈런은 단타보다 3배 정도 더 많은 득점가치가 있다는 것을 알 수 있습니다.

빌제임스의 RC처럼 여기에도 몇가지 버전의 계산식이 있습니다.  이유는 같습니다.  구할 수 있는 스탯이 무엇인지에 따라 편리한 것을 골라 쓰라는 뜻입니다.  약간의 정확도 차이가 있지만 문제가 될 정도는 아니기 때문입니다.  물론 지금은 야구스탯을 구하는 것이 별로 어렵지 않으며 계산식이 좀더 길어도 결국 고생은 엑셀이 하는 것이니 이왕이면 full version의 계산식을 쓰는게 낫겠지요.

XR이 가진 탁월성은 [선형식 linear formula]의 구조를 가지고 있기 때문에 단순하면서도 지표의 원리가 명확하게 드러나 보인다는 데에 있습니다.  즉 식에 투입되는 모든 변수들, 그러니까 득점에 영향을 미칠 수 있는 경기 중의 모든 타격, 주루이벤트 각각에 [가중치]를 부여해서 그냥 다 더합니다.  

이런 종류의 지표가 얼마나 정확한지 테스트하는 방법은 아주 간단합니다.  타자 개인의 득점생산은 가상적으로만 측정되기 때문에 그 계산원리가 맞는지 복잡한 통계적 절차 없이는 검증하기 어렵습니다.  하지만 팀 득점은 다릅니다.  실제 시즌이 끝나면 그 팀이 몇점을 만들었는지 명백합니다.  그러면  XR 을 타자 개인이 아니라 한 팀의 공격 전체에 적용해보면 됩니다.  당연히 잘 맞습니다.   


예전에 쓴 다른 글에 포함되었던 데이터입니다.  KBO13 시즌 후반쯤을 기준으로 계산했습니다.  약간의 오차가 있긴 하지만 단순히 개별기록의 선형가중식으로 구한거라 보면 신기할 정도로 잘 맞습니다.


햇병아리 세이버메트리션의 도전

짐퍼타도의 XR은 빌제임스의 RC, 톰탱고의 wOBA(wRAA)와 함께 가장 많이 사용되는 세이버메트릭스의 득점생산력 지표입니다.  

1985년 출간된 빌제임스의 책 The Bill James Historical Baseball Abstract  에서 소개된 RC는 득점생산력에 대한 가장 대표적인 그리고 가장 오래된 지표입니다.  그런데 바로 그 책에는 RC와 같은 목적을 가진, 그러나 조금 다른 방법론에 기초한 또다른 득점생산력 측정지표에 대한 언급이 있습니다.

폴 존슨Paul Johnson의 Estimated Runs Produced (ERP) 인데 빌제임스에게 이 아이디어에 대한 편지를 보냈고 , 빌제임스가 그것을 책에 소개하게 된 것입니다.  짐 퍼타도는 나중에 이 글을 읽으며 깊이 매료되었고 이에 대한 여러가지 분석을 거친 후 XR 이라고 하는 새로운 지표를 디자인하게 됩니다.

짐퍼타도의 XR이 그 이전까지 가장 대표적인 득점생산성 지표였던 RC와 결정적으로 다른 점은, [득점 = 출루 * 진루 ] 라는 원리에 입각했던 RC와 달리 개별적인 타격이벤트 각각에 가중치를 곱한 후 더하는 [선형식linear formula = the linear weights method]이라는데 있습니다.  수학적으로 말한다면 빌제임스의 RC는 Non-linear formula 이구요.  실제로 빌제임스의 공식들은 대부분 더하고 곱하고 나누고 뺍니다.  

빌 제임스와 함께 대표적인 초기 세이버메트리션이었던 피트 파머Pete Pamler 는 말하자면 그당시 [선형파] 였습니다.   서로 다른 이 두가지 모델은 각기 장단점을 가질 수 있습니다.  비선형파의 거두였던 빌제임스는 그런데 선형파의 일종인 폴 존슨의 ERP에 대해 소개하며 다음과 같이 평가합니다.

첫째, 완전 심플하다. 둘째, 변수들의 관계가 전적으로 독립적이다(간섭을 일으키지 않는다).  이런 특징은 앞으로 정확도에 대해 어느것이 더 나은지 검증되어야 할 두가지 방법론에 절충안을 시사한다.
James said, "The excitement of finding Johnson's method is 1) it is so simple, and 2) it was developed entirely independently. These two things suggest that there probably are compromises between the two methods that will prove to be yet more accurate than either method."

빌제임스의 RC가 가진 대표적 단점은, 출루와 장타 둘다에서 매우 뛰어난 타자들의 경우 RC에서 과대평가될 소지가 있다는 점이었습니다.  흔히 산술급수적이다 혹은 기하급수적이다 라는 표현을 쓰는데 덩어리와 덩어리가 곱해지는 비선형식은 어쩔 수 없이 어느 구간에서 기하급수적인 값의 변화가 생겨나기 마련입니다.  허용구간 가운데서는 이런저런 보정계수, 상수에 의해 조정되지만 RC에서 서로 곱해지는 출루팩터와 진루팩터가 둘다 매우 높을 경우 즉 허용구간의 경계선에 접근하면 그것이 충분히 완화되지 못하기 때문일거 같습니다.  

반면, 선형식은 그런 단점을 가지지 않습니다.  변수와 변수가 서로 간섭을 일으키지 않고 또 허용구간의 경계선 즉 출루팩터와 진루팩터 모두에서 탁월한 선수들의 경우라도 과대평가의 오차를 피하기 쉽습니다. 

짐퍼타도는 폴존슨의 ERP에서 아주 흥미로운 점을 발견해냈습니다.  하나는 폴존슨이 ERP에서 사용한 가중치가 피트파머가 발표했던 가중치와 거의 완전히 똑같았습니다.  그 둘은 전혀 다른 방법으로 그 가중치를 도출했음에도 말입니다.  또 한가지는 빌제임스의 반응 때문이었습니다.   폴 존슨의 ERP를 매우 높게 평가한 빌제임스는, 당대의 또다른 대표 세이버메트리션이며 그의 절친한 친구이기도 했던 선형파 거두 피트 파머에 대해서는 대체로 비판적이었습니다.    짐퍼타도는 여기서 불타올랐습니다.  

도대체 이 햇병아리 세이버메트리션이 뭘 할 수 있을까?   이럴 때 내가 할일은 오직 하나뿐 --- 내가 직접 해봐야겠어!!!!
So what could this fledgling sabermetrician do? The only logical thing––I had to study the matter myself.                                                - Introducing XR - Baseball Think Factory

이런 도전본능들이 정신나간 괴짜(오덕)들의 이해못할 숫자놀음이 10조원짜리 거대 비즈니스 MLB의 권력을 30년만에 장악해버린 동력이었겠죠.


[선형가중치 방식 the linear weights method]의 특징과 장점 

XR의 조상뻘이 되는 폴 존슨의 ERP는 다음과 같습니다.

ERP=(2 x (TB + BB + HP) + H + SB - (.605 x (AB + CS + GIDP - H))) x .16
위의 식을 선형가중치가 좀더 잘 드러나도록 인수분해하면 다음과 같아집니다.
ERP=(.48 x 1B) + (.8 x 2B) + (1.12 x 3B) + (1.44 x HR) + ((HP+BB) x .32) + (.16 x SB)-(.0968 x (AB + CS + GIDP - H))

[선형가중치 방식 the linear weights method] 에서는 이 산식formula 에 1)어떤 변수를 집어넣느냐  2)그 변수에 얼만큼의 가중치를 곱해주느냐 오직 이 두가지만 결정되면 다른 것은 똑같습니다.  

짐퍼타도가 XR을 디자인하기 위해 했던 일도 그 두가지입니다.  당대의 다른 선형가중치 방식의 지표들에서 1) 어떤 변수를 사용했고 2) 얼마의 가중치를 적용했는지 검토합니다.  

<> 사용되는 변수들의 경우
빌제임스의 RC - H, TB, BB, IBB, HP, AB, GIDP, SB, CS, SH
피트파머의 BR - 1B, 2B, 3B, HR, HP, BB, AB, SB, CS, OOB
폴존슨의 ERP - H, TB, BB, HP, AB, SB, CS, GIDP
I also decided to experiment with strikeouts because I remembered that Bill James had estimated in his 1992 Bill James Baseball Book (pg.37) that for every additional 100 strikeouts a team would lose about 1 run.

<> 사용되는 가중치의 경우
ERP - BR Event Value Comparison


그후 1955년-1997년 기간의 데이터를 이용한 회귀분석을 통해 스스로 구한 가중치를 테스트했습니다.  이 안에는 다소 예외적인 투고시즌 (low scoring periods,1963-1968)와 타고시즌(high scoring periods, 1994-1997)에 대한 보정과정(massaging the data)이 포함되어 있었습니다.

그리하여 1985년 폴 존슨의 ERP에 흥미를 느꼈던 짐퍼타도는, 그로부터 14년이 흐른 1999년 XR 이라는 세이버메트릭스의 또하나의 명작을 세상에 내놓게 됩니다.  (물론 짐퍼타도가 본격적으로 XR에 대한 작업을 시작한 것은 90년대 중반쯤 일겁니다)

비선형식의 대표 RC와 선형식의 대표 XR 사이의 또 다른 중요한 차이는 RC가 [실패] 즉 빼앗긴 아웃카운트를 처리하는 방법입니다.  RC는 [성과=출루*진루]를 [기회=타석] 으로 나눕니다.  그렇게 하면 분모에는 포함되지만 분자에는 포함되지 않는 [실패]가 제거(reduced)됩니다.  [성과=안타수]를 [기회=타수]로 나누어서 [실패=범타]를 반영하는 타율과 같은 원리입니다. 
  
반면 ERP나 XR은 실패를 마이너스 합니다.  즉 아웃카운트 1개당 정해진 가중치 (1루타 1개가 +0.48 일때 아웃 하나는 -0.098) 를 빼줍니다. (위의 XR식에서 더하는 것과 빼는 것을 비교해주십시요)

짐퍼타도의 XR이 빌제임스의 RC를 이었듯이 XR을 이은 것은 톰탱고의 wOBA입니다.  wOBA는 XR와 같이 선형가중치방식인데 득점생산력 지표이긴 하지만 RC나 XR과 달리 득점스케일의 지표가 아니라 출루율 스케일의 지표(가중 출루율:Weighted OBA)입니다.  그래서 RC와 XR이 같은 득점스케일 지표은 [타점] [득점]과 비교되어야 한다면 wOBA는 출루율, 타율, 장타율 같은 것과 비교될 수 있습니다. 
WAR을 구하는데 사용되는 wRAA가 바로 wOBA의 파생지표입니다.  

그런데 흥미로운 것은 wOBA계열이 지표는 XR처럼 선형가중치를 사용한 방식이지만 [실패]를 처리하는 방법에서는 RC처럼 [나누기 타석] 을 쓰고 있다는 것입니다.  그런데, 그럴경우 RC나 XR처럼 득점스케일의 값을 구하는데 문제가 생길 수도 있습니다.  

이 부분에 대해 톰탱고의 wOBA(wRAA)가 선택한 방법이 대체레벨ReplacementLevel 입니다.  그리고 이 대체레벨ReplacementLevel 이라는 개념이 세이버메트릭스 득점생산력 지표에서 세번째 진화를 이끌어 냅니다.   (이에 대한 더 자세한 이야기는 wOBA 편에서)


붙임
1. RC에 RC27 이 있듯이 XR에도 XR27이 있습니다.  계산방법은 같습니다.  타자가 빼앗긴 아웃카운트 갯수로 XR을 나눈 후 27을 곱합니다.  ​

2. KBO 선수들에 대해 분석할 경우, 저는 RC보다 XR, XR27 을 이용할 것을 권합니다.  굳이 따지면 RC가 더 유명하긴 하지만 정확도는 XR이 좀더 낫습니다. 대체로. 

3. 더 중요한 것은, 그것이 피트파머의 것이든 짐퍼타도의 것이든 타격이벤트별 득점가중치는, 리그환경에 따라 달라진다는 것 때문입니다.  MLB에서도 타고 현상이 강했던 시기의 데이터로 계산된 가중치와 투고 시기의 데이터로 계산한 가중치는 다릅니다.
당연히 타자들의 평균적인 출루율, 장타율 수준이 아니고 리그평균득점이 다른 KBO의 가중치도 다릅니다.  RC의 경우 비선형식이기 때문에 수정된 가중치를 대입해서 사용하기가 어렵지만, XR은 완전한 선형식이기 때문에 그게 가능합니다.

4. KBO05_11기간의 데이터로 계산한 KBO의 타격이벤트별 가중치는, 이 블로그의 wOBA 관련글 안에 있습니다.  원하시는 분은 참고하십시요.  
[세이버메트릭스onKBO] wOBA 리그 특성과 가중치 초정 - http://baseball-in-play.com/54



Appendix.  KBO14시즌 XR TOP30


XR은 대체로 RC에 비해 조금더 정확성이 높은 것으로 평가받습니다.   선형가중치 방식의 XR이 출루율, 장타율이 둘다 아주 높은 타자에 대한 과대평가 문제를 가지고 있지 않기 때문이며, RC에 비교해서 희생번트, 희생플라이, 병살타, 도루성공과 실패, 병살타 등을 좀더 세밀하게 반영하고 있기 때문입니다.
RC 순위와 비교했을 때, 2위와 3위 자리에서 서건창과 강정호의 자리바꿈이 있습니다.  RC 순위에서 22위였던 이택근은 XR 순위에서는 12위로 뛰어오릅니다.   반면 채태인, 홍성흔 등은 RC에 비해 XR에서 좀더 낮은 순위로 내려갑니다.