본문 바로가기
diegobaseball
세이버메트릭스 도서관

톰탱고의 기대득점과 득점가치 - 세이버메트릭스 키워드 (기대득점)

by 토아일당 2015. 2. 2.

기대득점 Run Expectancy 와 득점가치 Run Values 

- 21세기 세이버메트릭스의 가장 위대한 발견 : 톰 탱고의 24states 혁명


톰탱고의 기대득점RE과 기대승리WE 분석모델  

1편 - 기대득점 Run Expectancy 과 득점가치 Run Values, wOBA 

2편 - 승리확율과 WPA, 레버리지인덱스 http://baseball-in-play.com/110



기대득점RunExpectancy이란 타자가 타석에 들어선 순간 평균적으로 얼만큼의 득점을 기대할 수 있느냐에 대한 통계값입니다.  이게 가능한가요? 또는 의미가 있을까요?

왜냐하면 2사만루에서는 단타 하나로도 2점 가끔은 3점도 가능하고, 홈런이라도 주자가 없으면 기껏 1점밖에 나지 않는 것이 야구라서 말입니다.  

그런데, 야구경기의 모든 장면은 무사/1사/2사 3가지 아웃카운트 상황과 주자없음, 1루, 2루, 12루, 13루, 23루, 만루 8가지 주자상황의 조합인 24가지 상황 중 하나로 귀결됩니다.  그렇다면 이 24가지 상황 (24 base/out states) 을 기준으로 삼아 각각의 평균적인 통계값을 구할 수 있습니다. 

예를들어 KBO 2011년의 경우 1아웃2루 상황이 1512번 있었습니다.  그리고 이 상황 이후 이닝종료까지 만들어진 득점은 1109점이었습니다.  그렇다면 [1사2루] 상황의 평균적인 기대득점RE는 1109/1512=0.733점이라 할 수 있다는 것입니다.  이런 식으로 경기의 매 순간을 통계적으로 분석해서 3아웃*8주자상황=24가지 상황 각각의 기대득점RE를 계산하면 타자가 타석에 서는 모든 상황에 대해 얼만큼의 득점이 평균적으로 기대되는지 알 수 있게 됩니다.

이런 분석모델을 처음 고안한 사람은 톰 탱고와 그의 동료들이었습니다.  그는 이를 2006년 the Book: Playing the Percentages in Baseball 을 통해 발표했습니다.   야구의 상황의존적인 복잡성을 해명한 21세기 세이버메트릭스 발전에 가장 결정적인 영향을 준 사건이기도 합니다.  

다음은 톰탱고와 그의 동료들이 계산한 MLB99_12 의 RE 와 baseball-in-play가 계산한 KBO07_11 의 RE입니다.   리그의 득점환경 차이로 인해 약간 차이 생깁니다.  24states 각각의 절대값은 리그평균득점과 비례합니다.  톰탱고가 theBook에 사용한 MLB99_02 기간은 지금은 “약물의 시대”라고 불리는 상당한 타고시즌에 속합니다.  해서 MLB99_02 의 이닝시작시점(무사-주자없음)의 RE는 0.555 로 KBO07_11 의 0.533 보다 약간 높습니다. 


득점가치 RunValue

기대득점모델은 아주 많은 것을 가능하게 만들어주었습니다.  2000년대 초반까지 많은 세이버메트리션들이 매달렸던 주제 중 하나는 상황 중립적인 타자의 득점생산성을 측정하는 일이었습니다.  빌제임스의 RC, 피트파머의 BR, 짐퍼타도의 XR이 모두 그와 의문에 대한 해결책입니다.  그런데 이런 종류의 득점생산성 평가지표에서 가장 중요하고 또 어려운 것이 1루타, 2루타, 3루타, 홈런, 볼넷 등의 타격이벤트 각각이 얼만큼의 득점기여도를 갖는지를 정확히 측정하는 일입니다.  

이때까지 타격이벤트의 득점가치를 계산하는 것은 대체로 회귀분석이라는 통계적 기술을 통해서 였습니다.  하지만 이 방법은 아주 많은 샘플데이터를 필요로 하며 시즌 마다의 득점환경 차이를 조정하는 과정이 필요합니다.  그럼에도 결과값의 정확도를 이후의 설명력을 통해서만 검증할 수 밖에 없는 한계를 가집니다.  반면 톰탱고의 기대득점모델은 더 적은 샘플데이터로 더 정확한 값을 계산할 수 있습니다.

예를들면 회귀분석은 스피드건으로 자동차의 속력을 재는 것과 비슷합니다.  측정은 가능하지만 오차의 여지가 있을 수 밖에 없는 추정치입니다.  반면 기대득점모델은 실제 달린 거리와 실제 소요된 시간을 정확히 재서 속력을 계산하는 방법인 셈입니다.

기대득점RunExpectacy 의 첫번째 의미는 그래서 타격이벤트의 득점가치RunValue를 좀더 정확히 계산할 수 있는 방법이 생겼다는 것입니다.

예를들어 무사1루에서 타자가 2루타를 쳐서 무사23루가 되면 이 타격이벤트는 [0_1 B/A states]를 [0_23 B/A states]로 만든 것입니다.  즉 RE 0.890 상태를 RE 1.984 상태로 바꾸어 놓은 것이기 때문에 이 2루타의 득점가치는 1.984 - 0.890 = 1.094 가 됩니다.  즉 어떤 타격이벤트의 득점가치RunValue는 타격 전의 기대득점과 타격 후의 기대득점 차이로 계산하면 됩니다. 

KBO07_11 기간 중 2루타는 7746개였습니다.  그리고 2루타 이후 이닝종료까지의 득점은 10798 이었습니다.  그렇다면 2루타로 인해 만들어진 득점은 1.394 라고 볼 수 있습니다.  그런데 2루타가 나온 시점의 평균적인 RE가 0.548 이었습니다.  2루타는 평균적으로 RE 0.548 을 RE 1.394 로 바꾸어놓았기 때문에 득점가치RunValue 는 0.846이 됩니다.
이런 방법으로 경기 중에 발생하는 모든 타격이벤트 각각에 대한 득점가치를 계산할 수 있습니다.  

다음은 theBook과 KBO07_11 5시즌 각각의 타격이벤트별 득점가치입니다.

어떤 리그나 시즌마다 득점환경이 조금씩 (어느 시즌은 좀 많이) 달라지기 때문에 단순비교하기는 어렵지만 대체로 KBO는 MLB에 비해서 출루율이 높고 장타율이 낮은 편입니다.   리그의 득점환경이 타고성향이 강하다고 타격이벤트별 득점가치가 무조건 높아지거나 낮아지는 것은 아닙니다.  그것은 오히려 리그의 출루율과 장타율의 밸런스에 더 많이 좌우됩니다.  시즌마다 차이가 있기는 하지만 대체로 KBO는 MLB에 비해서 출루율이 높고 장타율이 낮습니다.

출루율과 장타율의 밸런스는 베이스의 희소성에 영향을 주는데 KBO의 경우 많이 출루하지만 장타에 의한 진루가 어렵기 때문에 상대적으로 1루 주자의 가치가 낮고 2루, 3루 주자의 가치가 높습니다.  이런 부분이 희생번트나 도루의 가치에도 영향을 주기도 합니다. 

어쨌든 기대득점RE 모델을 기반으로 타격이벤트별 RunValues를 계산하는 가장 정확하고 효율적인 방법을 찾아낸 톰탱고와 그의 동료들은 이를 토대로 wOBA라는 타자의 득점생산성 스탯을 개발하게 됩니다.  wOBA는 명칭 그대로 출루율OBP 스케일의 지표인데, Percentage 라는 표현대신 Average 라는 표현을 사용한 것도 의미심장합니다.  회귀분석에 의해 계산된 가중치를 사용하는 RC, XR 과 비교했을 때 24states 모델을 이용한 기대득점 RunExpectancy 기반으로 타격이벤트별 가중치를 계산하기 때문에 약간이지만 정확도가 높다고 평가됩니다.   wOBA에 대한 좀더 자세한 내용은 다음 포스트를 참고해주십시요. 

wOBA관련 포스트
1. wOBA의 정의와 계산과정   http://baseball-in-play.com/53
2. wOBA 리그 특성과 가중치 조정  http://baseball-in-play.com/54
3. KBO중장거리 타자에 대한 재평가  http://baseball-in-play.com/55

희생번트, 도루의 가치에 대한 객관적인 평가방법

톰탱고와 그의 동료들이 만든 24 base/out states 의 발상 그리고 그것을 기반으로 구성된 기대득점RunExpectancy모델은 타격이벤트의 가치를 계산하는 것 뿐 아니라 경기중에 생겨나는 거의 모든 플레이가 얼만큼의 득점가치를 갖는지 정확하게 계산할 수 있게 해줍니다.  예를들어 도루, 희생번트, 진루타, 한베이스 더 가는 주자플레이 같은 것들 말입니다.  

도루나 희생번트에 대해 가장 영향력있는 세이버메트릭스의 분석은 톰탱고의 기대득점 모델을 이용합니다.  동시에, 기대득점은 리그의 득점환경에 따라 달라집니다.  MLB의 기대득점 메트릭스와 KBO의 기대득점 메트릭스는 서로 다를 수 있습니다.  따라서 MLB의 기대득점 메트릭스에 기반해서 분석되고 평가된 희생번트나 도루의 가치 역시 KBO 에서는 다를 수 있다는 것도 유념할 사항입니다. 

예를들어 도루에 관해서는 다음과 같습니다. 무사1루에서 기대할 수 있는 득점은 평균적으로 0.887점입니다.  (KBO05_11시준)  그리고 무사2루의 기대득점은 1.226점 입니다.  따라서 무사1루에 2루도루를 성공할 경우, 0.887 의 기대득점 상황이 1.226 의 기대득점 상황으로 바뀐 것이고 그렇다면 이 도루의 득점가치는 0.339 만큼의 기대득점 증가효과를 가지고 있으니, 0.339점의 가치를 가진다는 것입니다.  KBO 기준으로 도루와 희생번트 가치에 대한 것은 이전 글에서 다룬 적 있습니다. 

 KBO 05_11 7시즌 기준의 도루, 희생번트 관련 분석 
한국프로야구에서 도루의 가치와 손익분기점   http://baseball-in-play.com/56
  KBO의 희생번트 효율성에 대한 통계적 실험  http://baseball-in-play.com/73 

기대득점RE 모델은 좀더 확장됩니다.  기대승리WinExpectancy 또는 승리확율WinProbability 입니다. 그리고 이것이야말로 24 B/A states 혁명의 가장 가치있는 기여라고 생각합니다.  왜냐하면 이전까지의 세이버메트릭스는 객관적인 선수 평가방법을 찾아내기 위해 "다양하고 복잡한 상황의 영향을 제거하고 중립화시키는 것"에 몰두하고 있었는데 기대승리WE(또는 승리확율WP) 모델은 그 "상황"을 중립화시키는 것이 아니라 그 자체의 중요도를 계산해낼 수 있게 해주기 때문입니다.   
승리확율 WPA 관련 내용은 다음글에서 정리합니다.


*** 이 글이 인용되면서 약간 오해가 생길까 하여 붙입니다.  한국의 경우 투수가 타석에 서지 않기 때문에 이에 관한 가정을 굳이 설명하지 않았습니다.  하지만 글에서 소개한 톰 탱고의 분석을 포함해서 대부분 케이스에서 "투수가 타석에 서는 경우"는 제외하고 계산합니다.  

예를들어 "희생번트의 생산성" 같은 것을 고려할 때도 투수의 희생번트는 예외적인 케이스이기 때문에 계산할 때 제외하는 경우가 더 일반적입니다.  (2016년 5월 12일 붙임)