티스토리 뷰

WAR과 대체레벨(replacement level player)


WAR 즉 "대체레벨 선수 대비 승리기여도"는 대표적인 [통계적 선수평가지표]입니다.  하지만 세이버메트릭스가 지상의 가치로 여기는 [객관성]이라는 관점에서 보면 아주 아슬아슬한 경계선 위에 있는 지표이기도 합니다.


계산이 복잡할수록 더 정확할 것이라는 편견과 달리, WAR은 정확도에서 장점을 갖고 있지는 못합니다.  오히려 반대입니다.  타격, 수비, 주루, 피칭 각각의 평가지표를 종합해서 단일척도로 환산하는 과정에서 개별 요소의 평가정확도는 조금씩 마모될 수 밖에 없습니다.  또 수비, 주루 요인의 평가는 피칭과 타격에 비해 정확도가 떨어지는 평가지표를 사용할 수 밖에 없기도 합니다.  투수와 야수, 서로 다른 필딩 포지션, 타격-주루-수비 각각의 평가치를 종합해서 [승리기여도]라는 단일척도로 표시하기 위해 정확도와 객관성의 손실을 어쩔 수 없는 댓가로 지불하고 얻은 결과가 WAR 라는 지표입니다. 


해서 WAR의 장점은 직관성이지 객관성이 아닌 것입니다.  대체레벨선수replacement level player 라는 개념은 그중에서도 가장 논란이 많은 부분입니다.  


팬그래프fangraphs.com 의 설명은 다음과 같습니다.   


How do we deal with this? The MLB minimum salary gives us an important clue. $400,000 represents the zero level of marginal salary a team can commit to a player. 


Since they’re obliged to pay that money to someoneanyway, it doesn’t really matter to whom it’s actually going. Giving a player a job for the minimum means you’ve acquired him for as close to free as you’re ever going to get in baseball, especially as you haven’t expended other resources (other players, generally) to get him. Now, if a player’s willing to sign for free, that’s probably a clue that he’s not very good. 


In fact, he’s so bad that other teams don’t care if he gets picked up, because there are so many players of that calibre that acquiring one of them has virtually no effect on the size of the talent pool. If another team did care, there’d be some sort of competition to acquire his services, and as a result the team winning control over said player will have had to expend marginal resources to do it.


간단하게 말한다면 “언제든지” 구할 수 있는 “최저연봉선수”입니다.  그런데 대체레벨선수란 현실에 존재하기 보다 가상의 개념이기 때문에 이를 설명하는 과정에서 이런저런 오해가 생겨나곤 합니다.  


대체레벨에 대한 대표적 오해


AAAA선수는 대체레벨선수와 같지 않습니다.  이들 중 상당수는 이적료나 계약금, 최저연봉 이상의 급여를 지급해야 하기 때문입니다.  팀내 팜에 있는 가장 나은 선수 역시 대체레벨선수와 같지 않습니다.  이들 중 상당수는 최저연봉보다 더 비쌉니다.  게다가 희소합니다.  그러니 당연히, they might have effect more or less on the size of the talent pool 일겁니다. 


그런데 [대체레벨]이란 개념은 본래 WAR에서 유래한 것은 아닙니다.  이 개념은 그냥 일반명사입니다.  한국말로 치면 [후보선수]라는 개념이 그냥 일반명사인 것 처럼 말입니다.  따라서 WAR에서 사용하는 대체레벨이 위와 같은 정의라고 해도 다른 의미로 얼마든지 사용될 수 있고 실제로 그렇게 사용됩니다.


대체레벨이라는 개념은 짐 퍼타도의 1999년도 글에서도 이미 등장합니다.  그는 XR 이라는 (당시로서는) 새로운 공격생산성 지표를 디자인하고 제안하는 과정에서, 과거의 여러가지 비슷한 지표들은 평가하고 비판하며 이 개념을 사용하고 있습니다. 


(피트 파머의 BR의 경우 - 글쓴이 주) Average is the baseline. That's too high. Average players have value. I won't get into the whole replacement level concept here, but average players help teams win pennants. No team can have a superstar at every position.  - Introducing XR by Jim Furtado 1999


사실 [대체레벨]의 더 나은 해석은 baseline 또는 benchmark 입니다.  어떤 score 나 value 를 표시할 때 그 기준입니다.  산의 높이를 표시할 때 바닷물의 높이를 기준으로 하여 “해발” 이라고 표시하는 것 처럼 말입니다.


해서 가장 널리 쓰이는 [대체레벨]은 위에서 설명한 최저연봉이 어떻고 하는 복잡한 정의가 아니라 zero-base 입니다.  평균도 가끔 쓰입니다.  타율이라는 지표의 대체레벨은 zero-hit 이고 수비율(fielding percentage)의 대체벨은 no-error 이며 타점은 zero-run 입니다.  wRAA 같은 지표의 대체레벨은 리그평균입니다.  (여기서 리그평균이라 함은 100명 중 50번째 선수라는 뜻이 아니라 0.500의 승률에 해당하는 수준이라는 뜻입니다)


키쓰 울너의 VORP와 WAR의 아이디어


WAR에서 사용하는 것과 비슷한 대체레벨 개념이 처음 사용된 것은 키쓰 울너 Keith Woolner 의 VORP에서였습니다. 


Introduction to VORP: Value Over Replacement Player

https://web.archive.org/web/20070928064958/http://www.stathead.com/bbeng/woolner/vorpdescnew.htm


사실 WAR은 키쓰 울너의 VORP(Value Over Replacement level Player) 모델을 발전시킨 것이라고 볼 수 있는데, “어떤 선수의 가치를 평가하기 위해 그 선수가 [대체레벨]의 선수보다 얼마나 더 승리에 기여하는가”라는핵심 아이디어가 여기서 왔기 때문입니다.  WAR은 이 방법론을 이용해서 피칭, 타격, 수비, 주루 각각의 개별 요소 평가지표를 추가하고 다듬어 왔습니다. 


그런데 VORP의 대체레벨은 WAR의 대체레벨과 좀 다릅니다.  WAR이 cost-free 라는 기준을 가진 것과 달리 키쓰 울너가 정의한 대체레벨은 가장 뛰어난 [후보선수]입니다.   어느 팀 주전 유격수가 부상으로 이탈했다고 가정할 때 리그의 후보선수 중 가장 뛰어난 선수, 즉 예를들어 30개 팀이 있다고 하면 리그에서 31번째로 잘하는 유격수가 [대체레벨선수]가 됩니다.  따라서 VORP의 대체레벨은 WAR의 대체레벨보다 휠씬 높습니다. 


이런 맥락을 생각해본다면, [대체레벨]이라는 것은 애당초 그 정의가 무엇이냐고 논할 만 한 것이 아닙니다.  [후보선수]란 개념은 사람마다 다 다르듯이 [대체레벨선수] 역시 마찬가지입니다.  해서 [대체레벨]에 대한 더 중요하고 의미있는 질문은 “대체레벨이란 무엇이냐?” 가 아니라 “그런 의미의 대체레벨을 설정했을 때 얻을 수 있는 장점이 무엇이냐?” 입니다.



어떤 대체레벨이 더 좋은 대체레벨인가


그렇다면 WAR에서 cost-free 라는 기준으로 대체레벨을 정하는 것의 장점은 무엇일까요?  


가상의 선수 A는 드래프트 신인지명 조차 받지 못한 신고선수 1년차인데, 한 시즌 500번 타석에 세워놓으면 30개나 50개 정도의 안타를 칠 수도 있습니다.  볼넷도 10개 쯤 골라낼 수 있을지 모르죠.  이런 선수도 한 시즌 풀타임 출전을 하면 +20점 이상의 득점기여를 한다는 뜻이며 승수로 환산하면 +2승 정도가 됩니다.  그런데 팀의 준주전급 선수 B는 풀타임 기용하면 (예를들어 대충) +40점이나 +50점 정도 기여를 합니다.  둘을 비교하면 2배에서 2.5배 정도가 되는데, 그 경우 선수B는 선수A보다 2배나 2.5배 정도 가치있는 선수라고 해도 좋을까요?


아마 아닐겁니다.  선수B는 선수A에 비해서 휘어어어얼씬 더 가치있는 선수입니다.  따라서 연봉도 1000만원도 받을까 말까한 선수A에 비해서 선수B는 리그 최저연봉은 당연히 보장받으며 어쩌면 5000만원 정도 받을겁니다.  입단할 때 계약금도 받았겠죠.  


cost-free 라는 기준은 이렇게 “그 선수가 얼마짜리 선수냐?”라는 평가를 하기에 적합니다.  반대로 말하는게 더 정확할 수도 있습니다.  측정하려는 것이 [선수의 희소성]이었기 때문에 cost-free 라는 기준을 정한 것입니다. cost-free 라는 뜻은 희소성이 1도 없다는 뜻이며 따라서 cost-free 인 선수와 비교한 차이는, 평가하려는 선수의 희소성 수준이 됩니다.  


cost-free라는 기준은 선수의 희소성을 드러낸다


zero-win 이라는 기준과 달리, cost-free를 기준으로 삼게 되면 표시되는 값이 선수의 시장가치(연봉)에 좀더 선형비례관계에 가까워집니다.   이것이 cost-free 라는 대체레벨기준이 가진 장점입니다.  즉 WAR이 OO배면 연봉도 OO배"라고 말하기 쉬워진다는 거죠. 실제로 WAR이라는 지표이 가장 정확한 쓰임새는 선수의 승리기여도를 통해 적정연봉을 가늠하는 것입니다.  (어쨋든, 기술적인 의미의 승리기여도와 WAR은 일치하지 않는다는 것입니다.  애당초 WAR은 승리기여도가 아닙니다.  오히려 선수의 희소성을 고려한 시장가치에 가깝습니다)


그런 이유로 --- 객관성이라는 관점에서 보면 WAR의 대체레벨 개념은 아주 위태로운 양날의 검입니다.  “그래서 몇승을 기여했는데?”라는 아주 선명하고 직관적인 척도로 표현되는 WAR은 실제 승리기여도가 많이 가공된 결과이기 때문이죠.    


(이런 설명 역시 완전히 정확한 것은 아니지만) WAR2.0 인 선수C와  WAR1.0 인 선수D의 차이를 설명한다면, “D가 C보다 2배 더 승리에 기여했다”가 아니라 “D는 C보다 2배 더 많은 연봉을 받을 자격이 있다”라고 하는게 더 적절하다는 것입니다.  


더구나 결정적으로 서로 다른 리그는 서로 다른 선수 희소성 조건을 갖고 있습니다.  MLB에 비해 KBO의 경우 선수pool이 휠씬 얇습니다.  만약 이런 조건으로 인해 WAR 계산을 위한 대체레벨이 자칫 너무 높게 설정된다면 아주 치명적인 버그가 생겨납니다.


치명적 오차와 끔찍한 왜곡


MLB 기준의 WAR의 대체레벨선수의 zero-win 대비 승리기여도는 대략 +5.5승 정도인데, 한국 신고선수 1년차 레벨의 승리기여도를 +2승으로 가정하겠습니다. 


어떤 팀의 준주전급 선수 X가 zero-win 기준 +6.0승을 했고 주전급 선수 Y는 +7.5 승을 했을 경우, MLB기준을 적용한 WAR에서 X는 +0.5, Y는 +2.0 이 됩니다.  zero-win 기준 승리기여도는 1.25배 차이인데 WAR에서는 4배 차이가 납니다.   


만약 KBO리그에 적합한 WAR 대체레벨이 +5.5승이 아니라 +4.0승이었어야 했다면, 두 선수의 WAR은 각각 +2승과  +3.5승으로 1.8배 차이로 좁혀집니다.  이렇게 대체레벨 설정이 잘못될 경우 그 오차가 작더라도 결과적인 평가값은 휠씬 크게 증폭되어 왜곡될 수 있는 구조입니다.   


이를 시장 희소성을 고려한 선수연봉가치에 적용할 경우 3000만원 대 1억2000만원의 격차가 맞는 것인지 아니면 6000만원 대 1억원의 격차가 맞는지의 차이가 되어 버립니다.   만약 부정확한 대체레벨이 적용된 것 때문에 근소한 마이너스 WAR 로 평가된 선수에 대해서라면 왜곡은 더 끔찍해집니다.  종종 “경기에 나올수록 손해”라는 식으로 해석되며 연봉도둑을 넘어 역적 취급을 당해야 하기 때문입니다.  심지어 그게 사실이 아닌데도 말이죠.  


짐 퍼타도가 대체레벨은 어떤 경우에도 충분히 낮아야 한다고 말한 것은 그래서 타당합니다.  0이 아닌 대체레벨을 사용하는 모든 지표는 설정된 대체레벨 근처에 있는 선수들에 대해 허용 범위 밖의 오차를 내포할 수 밖에 없기 때문입니다.  


How to Use WAR?


사실 WAR을 정작 만든 사람들은 이런 종류의 결함과 한계를 잘 알고 있습니다.  미국이 가장 대표적인 세이버메트릭스 사이트 fangraphs.com 은 WAR에 대한 설명 중 How to use WAR 이란 항목을 할애해서 개연적인 부정확성(uncertainty) 를 열심히 설명합니다.  


1. 0.5나 1 이하의 WAR 값은 대체레벨 기준에 매우 가깝다는 뜻이기 때문에 참고할 만한 정확도를 가지지 못한다.

2. 소숫점 단위의 차이로 두 선수의 우열을 논할 수 없다.  WAR4.2와 WAR6.5 선수이 경우 누가 누구보다 더 가치있다고 말해도 좋겠지만 WAR 2.8 과 WAR 3.3 정도의 차이라면 그렇게 말할 수 없다.  

3. 공격평가에 비해 수비평가는 정확도가 많이 떨어진다. (MLB에서도 그렇다는 말입니다)  따라서 수비 요소로 인해 WAR 이 크게 높아지거나 낮아지는 경우라면 그 평가는 정확하다 말하기 어렵다. 

4. 기타 등등.  

여튼 의약품 사용설명처럼 주의사항이 잔뜩 더 있습니다.  다만 이 글은 WAR 평가의 전반적인 왜곡가능성이 아니라 [대체레벨]의 개념에 관한 것이기 때문에 적당히 줄입니다.


그럼에도 신문기사나 온라인커뮤니티 글에서 콤마 단위로 줄세워 우열을 평하는 것은 예사이고 혹여 마이너스 값이라도 나오면 그 선수를 역적 취급을 합니다.  더 끔찍한 것은 그런 비난이 세이버메트릭스의 강고한 객관성 위에 있다고 착각하는 것입니다.   


WAR은 세이버메트릭스의 매력덩어리 문제아입니다.   포지션과 상관없이 그리고 타격, 수비, 주루, 피칭을 아울러 모든 선수를 동일 척도로 평가할 수 있는 거의 유일한 지표이며 게다가 [승리기여도]라는  직관적이고 확 와닿는 형식을 가졌습니다.  누구라도 끌리죠.   반면 정확도라는 면에서는, 이게 객관적 야구통계지표로서의 자격이 있나 없나 의심스러울 정도로 아슬아슬 합니다.   미국에서 조차 그렇다는 것입니다. 


이 마당에 MLB와 환경이 다른 KBO에서라면 여북할까요.  이 가운데 [대체레벨]은 리그환경에 달라지면서 오차의 여지를 가장 증폭시킬 여지를 가진 [폭두] 쯤 됩니다.  버리기엔 매력에 끌리고 쓰기엔 객관성이 불확실한 그런 지표가 WAR 입니다.  그나마 대체레벨의 개념을 좀더 정확히 이해한다면 그로인한 오남용이 조금은 덜해질 수 있을까요. 






댓글
  • 프로필사진 삼팬 다시 한 번 저의 무지함을 일깨워주는 좋은 글이네요. 대체선수가 AAA급에 실제 선수인줄 알고 있었던 진보적인 팬은 또다시 1패를 얻고 갑니다.

    WAR에서 가장 문제점 두 가지는 콤마 단위로 평가하는 기자들과 팬과 수비 스탯이라고 생각합니다. 명확한 개인 수비 스탯이 나오지 않는 이상 WAR계산에 수비를 넣지 않거나 DER을 이용한 방법도 좋을 것 같습니다. http://blog.naver.com/ever_17/220549360559
    스탯티즈에서는 sFR을 WAR계산에 도입하고 있는데 넣는 것이 좋을지, 넣지 않는 것이 좋을지 토아일당님의 생각이 궁금한데 어떻게 생각하시나요?
    2016.01.15 18:59 신고
  • 프로필사진 토아일당 실은 지난 시즌 종료 후, 선수WAR 계산이 필요한 일이 있어서, 스탯티즈와 별개로 작업을 했었습니다. 문제는 [수비스탯]이었는데, 처음 생각에 RF에 기반해서 소속팀 투수특성을 조정해주는 방식을 고려했는데, (미국에서 uzr 이전에 RRF라고 이 비슷한게 있었습니다) 결국은 포기했습니다. 수비이닝이 충분히 많은 선수들의 경우 안정되고 신뢰할 만한 값이 나오는데, 수비이닝이 적은 경우는 그게 안되더라구요.

    sFR은 충분히 납득할만한 정확도를 갖고 있지 못하다고 생각합니다. 다만 (직접 해보면서 느낀건데) 타구위치.를 pbp로 측정하지 않는 한, sFR 이상의 방법도 없기도 하더군요. 물론 조정방법에 약간 개선은 있어야 할듯 하지만.

    음... 저는 정확하지 않은 스탯은 굳이 사용할 필요가 없다. 라고 생각하는 편입니다. 안정성, 정확성이 확실치 않은 지표를 굳이 써야 할 이유가 별로 없어서요.
    2016.01.18 20:50 신고
댓글쓰기 폼