본문 바로가기
diegobaseball
KBOstats 실험

KBO 14시즌의 기대득점과 득점가치 계산, 그리고 한국의 세이버메트릭스

by 토아일당 2015. 6. 30.


기대득점(RunExpectancy)과 득점가치(RunValues)는 2007년 톰탱고와 그의 동료들이 쓴 책, theBook 을 통해 발표되었고 이후 거의 모든 세이버메트릭스 지표에 영향을 주었습니다.


가장 많이 사용되는 타격메트릭스 wOBA가 기대득점, 득점가치 모델 위에서 디자인된 것이고,  공격WAR 역시 wOBA 베이스로 계산하는 wRAA, wRC를 이용해서 계산하기 때문에 역시 득점가치 모델을 기반으로 만들어진 지표입니다.  FIP를 좀더 정교하게 개선한 피칭메트릭스 xFIP 도 마찬가지입니다.


희생번트나 도루의 효율성을 계산하는 것도 --- 예를들어 희생번트 가능 상황인 무사1루의 기대득점과 이후 상황인 1사2루의 기대득점을 비교하는 방식입니다.  도루 이외의 주루플레이에도 적용될 수 있는데 주자1루+단타 상황에서 1루주자가 3루까지 진루할 경우 주자12루의 기대득점과 주자13루의 기대득점의 차이 만큼이 추가진루의 가치로 계산됩니다.


대표적인 세이버메트릭스 수비지표 UZR도 같습니다.  특정한 위치에 타구가 떨어졌을 때의 평균적인 기대득점변화와, 실제 수비수가 그 타구를 처리한 결과로 초래된 기대득점변화를 비교해서 플러스 또는 마이너스 가치를 계산합니다.


말하자면, 기대득점/득점가치 모델은 세이버메트릭스의 [구구단]이나 [주기율표] 같은 역할을 합니다. 



2014년 KBO 아웃/주자상황별 기대득점값


KBO14 시즌을 대상으로 한다면 총 576경기가 벌어졌고 45853타석이 완료되었습니다.  기대득점은 이 모든 상황을 3가지 아웃카운트(0아웃,1아웃,2아웃)와 8가지 주자상황(없음,1루,2루,3루,12루,13루,23루,123루)의 조합인 24 out/base states 로 나눕니다.  그리고 각각의 상황에서 이닝이 종료될 때까지 얼만큼의 득점이 만들어졌는지 계산합니다. (이하 데이터 중 확인하지 못한 오차가 있을 수 있습니다.  하지만 전체 타석 중 3-5타석을 넘진 않을 것이고, 결과값에 의미있는 영향을 줄 수 없었을 것입니다) 


다음은 그 결과입니다.  



계산에서는 종료되지 않은 이닝은 제외합니다.  예를들어 (마지막 이닝의 끝내기 상황 0아웃 만루) 조건에서 안타가 나왔을 경우 1득점만 기록되고 경기가 끝나지만 보통의 상황에서는 그보다 많은 득점이 만들어질 수 있기 때문에 계산결과가 왜곡되지 않기 위해서입니다.  흔한 경우는 아니지만 비가 많이 와서 리드하고 있던 홈팀의 공격 중에 경기가 콜드게임 선언될 경우도 마찬가지로 제외됩니다.


톰탱고의 경우 “종료되지 않은 이닝” 뿐 아니라 9회 이후의 이닝도 제외했는데 경기 후반의 스몰볼 전략 등으로 평균적인 경우보다 동일 조건에서 득점이 낮아지는 왜곡을 피하기 위해서라고 합니다.  


다만 KBO14시즌의 경우로만 보면 경기 후반의 동일조건에서 오히려 기대득점이 늘어나는 면도 있고 한 시즌만의 통계이다보니 좀더 정확한 계산을 위해 가급적 샘플사이즈가 큰 편이 낫다는 이유로 “종료되지 않은 이닝”만을 제외하고 연장이닝까지 계산에 포함시킵니다.   조건에 해당하는 전체 타석은 45647회입니다. 


계산과정을 간단히 설명하면, 예를들어 시즌 전체 타석 중 1사1루인 경우는 2910번이었고 이때의 득점은 1848점이었습니다.  따라서 1사1루의 기대득점은 (1848 / 2910 = 0.635점) 이 됩니다.


무사주자없음(0_0) 상황의 기대득점은 보통 그 시즌의 이닝당 득점과 거의 비슷한 값을 가집니다.  따라서 해당 시즌의 득점환경은 0_0 상황 기대득점을 통해서 추측할 수 있습니다.  물론 모든 0_0 상황이 이닝 첫타석은 아니기 때문에 완전히 일치하지는 않습니다.



2014년 타격이벤트별 득점가치(RunValues)


해당 기간의 기대득점을 구하고 나면 타격이벤트 별 득점가치를 계산할 수 있습니다.  계산의 모델은 거의 같습니다.  예를들어 2루타의 득점가치는 2루타가 나온 이후의 득점을 2루타 빈도수로 나누어주면 됩니다.  대신 2루타 타석이 기대득점 0.0 에서 시작된 것은 아니기 때문에 그 값에서 Starting_RE를 빼줘야 합니다.   



마찬가지로 종료되지 않은 이닝에서의 타격이벤트는 계산에서 제외합니다.  Outs 은 BB,IBB,HBP,1H,2H,3H,HR 을 제외한 나머지 모든 타격이벤트를 포함합니다.  따라서 실책에 의한 출루나 야수선택 같은 것들도 여기 포함됩니다.  따라서 모든 Outs이 출루실패는 아닙니다.


이런 방식을 사용하는 것은, RV가 wOBA 같은 타격메트릭스를 디자인하기 위한 준비과정 성격을 함께 가지고 있었기 때문이기도 한데, 실책출루(ROE)나 야수선택(FC)는 타자의 능력과 상관없는 것이기 때문에 wOBA 계산에 반영하지 않고 따라서 그 이외의 것을 전부 Outs으로 간주하는 쪽이 좀더 심플해지기 때문입니다.


또 한시즌 데이터를 기준으로 RV를 계산할 경우 FC나 ROE는 빈도수가 너무 작기 때문에 계산이 부정확해질 소지도 있어 제외한 이유도 있습니다.



고의사구의 RV가 낮고 3루타의 RV가 높은 이유 


KBO14 시즌의 득점가치RV 에는 몇가지 특이한 사항이 있습니다.


1.고의사구(IBB)의 득점가치가 마이너스값입니다.  

대체로 고의사구는 일반적인 볼넷에 비해 득점가치가 현저하게 낮지만 마이너스가 될 정도는 아닌 것을 생각한다면 14시즌의 약간 특이한 현상이었습니다.  IBB가 비록 출루를 허용한 것이지만 결과적으로 실점을 억제하는데 효과적이었다는 뜻이기도 합니다.  한국프로야구 감독들의 작전감각을 칭찬해야 할 수도 있겠습니다.  물론 샘플사이즈가 작아서 생긴 우연의 결과일 수도 있겠지만 “결과적으로” 14시즌의 KBO에서는 고의사구를 선택한 이후의 결과가 매우 좋았다는 것은 사실입니다.  


2. KBO14 시즌에 한정해서 본다면 3루타의 득점가치가 매우 높습니다.  

다른 타격이벤트에 비해 IBB와 3H는 한시즌의 데이터로는 빈도수가 작기 때문에 이런 종류의 왜곡이 생겨날 소지가 있습니다.  그렇다고 해도 이것은 KBO14시즌에 실제로 3루타가 이만큼의 득점가치를 가졌던 결과를 반영하고 있습니다. 


3. HBP의 득점가치가 BB의 득점가치보다 휠씬 높습니다.  

이것은 꼭 KBO14 데이터에만 나타나는 것은 아닙니다.  대체로 HBP는 BB보다 득점가치가 높습니다.  이유로는 명목상으로는 고의사구가 아닌 고의사구 때문이라는 것이 가장 유력합니다.  흔히 “어렵게 승부한다”라고 표현되는, 볼넷을 염두에 두고 극단적인 모서리 피칭을 한 결과로 만들어진 볼넷이 BB에는 포함되어 있기 때문입니다.   포수가 앉아서 받은 “고의사구”라고 봐야겠죠.  

IBB의 득점가치가 낮은 것처럼 이런 종류의 기록되지 않은 실질적인 고의적 사구도 득점가치가 포함되면서 BB의 득점가치는 실제보다 약간 낮아지지만 HBP의 경우는 그렇지 않기 때문이라는 추측입니다. 



기대득점과 득점가치가 말해주는 리그의 특성 


KBO리그의 경우 볼넷의 득점가치는 MLB와 비교해서 상대적으로 낮고, 안타 특히 장타는 상대적으로 득점가치가 높습니다.  


14시즌의 경우 타고성향으로 경기당 득점 5.6점 정도의 고득점 환경이었기 때문에 모든 타격이벤트의 득점가치가 꽤 높은 편인데 톰탱고가 2000년대 초반의 MLB를 대상으로 한 계산과 비교했을 때 볼넷이 가치는 비슷하고, 1루타 이상의 안타들은 모두 KBO 쪽이 더 높습니다. (표는 TheBook에 나온 톰탱고이 RV 테이블)


MLB와 KBO 사이의 이런 차이는 MLB 데이터를 기준으로 계산된 세이버메트릭스 지표를 이용해서 KBO리그의 선수평가를 할 때 유형에 따라 과소평가 또는 과대평가가 생겨날 소지가 있다는 뜻이기도 합니다.  기대득점과 득점가치는 리그의 차이 뿐 아니라 시기에 따라서도 좀 달라집니다.  


대체로는 MLB와 비교했을 때, KBO는 출루율은 약간 가치가 낮고 장타율은 약간 높습니다.  기대득점이나 득점가치의 절대적 크기는 보통 타고냐 투고냐에 따라 좌우되는 성향이 크지만, 24 base/outs state 들의 상대적 기대득점 차이나, 타격이벤트 들이 상대적 득점가치 차이는 출루율과 장타율의 비율에 따라 더 많이 좌우됩니다.  장타율이 높은 조건에서는 1루주자를 쉽게 홈에 불러들이지만 장타율이 낮으면 그럴 수가 없습니다.  결과적으로 MLB와 KBO 사이의 출루와 장타 희소성의 차이를 반영하게 됩니다.


도루나 희생번트의 가치 역시 리그의 장타율에 영향을 많이 받습니다.  장타율이 낮은 조건에서는 1루에서 2루로 진루시키는 플레이의 가치가 커집니다.  1루 주자의 득점가능성이 상대적으로 낮기 때문입니다.  실제로 득점과 장타율이 억제된 조건, 예를들면 8회 이후 이닝이라거나 강한 투수를 가진 팀과 상대했을 때로 한정해서 기대득점을 계산하면, 희생번트나 도루의 효율성이 휠씬 높아지는 것을 보게 됩니다.


그밖에도 리그의 특성은 다양한 방식으로 기대득점과 득점가치에 영향을 줍니다.  주자가 3루에 있는 상황에서 와일드피치나 패스트볼을 억제하는 포수의 수비능력은 기대득점을 낮추거나 높입니다.  또 희생플라이 가능상황에서 외야수의 송구능력 역시 그렇습니다.



득점가치(RunValues) 를 구하는 또다른 방법  


기대득점과 득점가치는 기본적으로 Play-by-Play 데이터에 기반해서 구합니다.  하지만 득점가치에 준하는 wOBA 가중치는 다른 방법으로도 근사치를 구할 수 있습니다.


득점가치 개념을 만든 톰탱고가 고안한 방법인데, 시즌의 타석당 득점을 기반으로 몇가지 상수를 적용하는 것입니다.  다음 링크를 참조하십시요.  톰탱고의 공개 아카이브 같은 곳입니다.   http://www.insidethebook.com/ee/index.php/site/comments/woba_year_by_year_calculations/


최근 KBO리그에 대한 세이버메트릭스 지표를 제공하는 사이트들에서도 아마 같은 방법을 사용하고 있는 것으로 압니다.  다만 몇가지 문제점은 있습니다.


앞에서 설명한 것처럼, 리그의 평균득점이 같다고 하더라도 장타율과 출루율의 밸런스나 수비능력 같은 것에 따라 상황별 기대득점과 타격이벤트별 득점가치는 달라지게 됩니다.  톰탱고의 wOBA가중치 계산방법은 당연히 MLB의 리그환경을 염두에 두고 계산된 것이기 때문에 이를 KBO리그의 메트릭스 계산에 사용할 경우 다소간이 왜곡이 생겨날 소지는 있습니다.


아주 큰 차이는 아니겠지만, 예를들어 장타율은 낮지만 고타율의 컨택형 타자라거나 출루율과 타율보다는 장타율을 강점으로 하는 타자라거나 하는 유형에 따라 어느 한쪽이 과소평가되거나 과대평가될 소지가 있습니다.


KBO와 MLB는 리그성향이 다를 뿐더러 세이버메트릭스 또는 야구통계를 다루기 위한 조건도 많이 다릅니다.  KBO은 Advanced Stats을 제공하는 사이트들이 생겨난지 불과 한두해가 지났을 뿐이고  Play-by-Play 데이터 역시 접근이 쉽지 않습니다.  반면 MLB는 Pitch FX에서 이미 StatCast로 진화하고 있습니다.  물론 StatCast 이후의 raw-data는 그쪽에서도 공개범위가 넓은 것 같진 않아 보이지만요.



한국에서의 세이버메트릭스 


저는 한국의 세이버메트리션 또는 야구통계에 관심을 가진 팬들은 좀 다른 접근을 하는 것이 옳다고 생각합니다.  “왜 한국에서는 스탯제공이 잘 안되는데”라고 답답해하는 것 말고 좀더 나아갈 여지가 있기 때문입니다.  손에 넣을 수 있는 raw-data 를 이용해서 만들어낼 수 있는 평가 메트릭스는 좀더 있을 수 있습니다.  


수비스탯은 늘 아쉬운 부분이지만 DER 같은 지표는 KBO리그에서 구할 수 있는 박스스코어 스탯만으로 꽤 믿을만한 팀수비 지표를 구할 수 있는 방법입니다.  최근에 DER이 많이 다루어지고 있는 것도 그래서 반가운 일입니다.  KBReport 에서는 아직 공개할 단계는 아니지만 UZR과 유사한 선수개인 수비스탯을 준비하고 있는 것으로 압니다.  관심과 지원이 있다면 좀더 빨리 진전될 수 있을 것입니다. 


제가 최근에 테스트하고 있는 WFA(Win-Factors Analysis) 같은 지표도 그런 접근의 하나입니다.  수비지표의 측정값을 득점스케일이나 승수스케일로 환산해서 팀의 허용실점은 투수의 책임과 수비의 책임으로 구분해내는 것이 핵심입니다.  


Win-Factors Analysis 상세설명 http://baseball-in-play.com/209 


세이버메트릭스에 관심있는 분들이 미국이 최신 아티클을 읽고 번역하며 공유하는 것은 충분히 가치있는 일입니다.  하지만 그것에 한정되는 것은 좀 아쉬운 일입니다.  


미국의 세이버메트릭스 발전에서 raw-data를 확보하기 위한 드라마틱한 헌신은 그리 많이 알려져 있지 않지만, 빌제임스가 주도했던 Project ScoreSheet 나 이후 그것을 이어받은 Retrosheet 의 역할이 없었다면 지금 황금기를 구가하고 있는 세이버메트릭스 역시 없었을 것입니다.


참고 빌제임스의 스코어시트 프로젝트 http://baseball-in-play.com/33


raw-data에 대한 접근이 제한되어 있다 하더라도 좀더 독창적인 접근의 여지는 남아 있다고 생각합니다.  


세이버메트릭스의 가치는 콤마 단위로 선수를 평가해서 줄세우는데 있지 않습니다. 편견으로 부터 자유롭기 위함이고 야구를 즐기는 더 나은 방법을 찾기 위함입니다.