본문 바로가기
diegobaseball
KBOstats 실험

LG와 롯데 투수들이 좀 불운한 이유 - 팀별 승패요인 분석 WFA

by 토아일당 2015. 6. 22.



팀의 전력은 보통 득점과 실점으로 드러납니다.  득점은 100% 타자의 몫이라고 해도 좋지만 실점은 좀 다릅니다.  그럼에도 보통 팀실점에 대한 책임은 투수들에게 돌아가곤 합니다.  물론 잘할 때는 수비수의 몫까지 투수들의 기여로 인식되는 면도 있습니다.  


피타고리안 승률 모델을 포함해서, 몇가지 세이버메트릭스의 분석모델과 통계적으로 계산된 개별 플레이의 득점효과 가중치(득점가치)를 이용하면, 팀 승수를 구성하는 요인들의 측정이 가능합니다.  


WFA: Wins-Factor Analysis


다음은 지난주까지 시즌 47% 정도가 소화된 시점에서 10개팀의 5할대비 +승수에 대한 요인별 기여도 입니다.


데이터 - [승리]를 만드는 4가지 방법 http://baseball-in-play.com/209


WFA(Win-Factors Analysis)모델에서 승리기여요인 다음과 같이 구성됩니다.  


첫째, 득점과 실점 데이터로 설명되는 [전력요인]과 전력 외의 [상황요인] : 팀승패 결과 중 피타고리안 승률식으로 설명되는 부분과 그렇지 않은 gap으로 계산할 수 있습니다.  

둘째, [전력요인]을 구성하는 [득점요인]과 [실점요인] : 득점요인과 실점요인을 각각 중립화시켜 팀의 승수 중 득점력에 의한 승수와 실점억제력에 의한 승수를 분리해냅니다.  [득점요인]은 [타격요인]으로 간주합니다. 

셋째, [실점요인]을 구성하는 [투수요인]과 [수비요인] : 팀실점 중 팀수비에 의해 만들어진 실점을 분리해냅니다.  수비의 몫은 DER, 도루저지, 도루허용, 견제아웃, 실책에 의한 출루허용(ROE), 패스트볼, 와일드피치 7가지 팀수비 스탯에 각 플레이에 해당하는 득점효과 가중치(RunValue)를 적용해서 계산합니다.


회색바(상황요인)는 보통 통계적인 오차나 운의 결과로 해석되기도 하고 경기수가 많아질수록 점점 줄어들긴 하지만, 시즌이 끝나는 시점까지도 여전히 일부는 남아있습니다.  팀 득점과 실점 데이터가 객관적 전력의 지표라고 했을 때 [상황요인]은 그 이외의 요인으로 만들어진 승패의 결과입니다.  


통계가 야구의 전부, 승부의 전부를 설명할 수는 없는 한에, [상황요인] 중 얼만큼은 득점과 실점 합계로는 드러나지 않는 "승부능력"일 수 있다는 가정을 전적으로 부정할 필요는 없다고 생각합니다.     


붉은색바는 [득점요인(타격요인)]이며 공격력에 의해 얻은 5할+ 승수의 크기이며, 짙은 청색바(투수요인)과 하늘색바(수비요인)은 각각 투수와 수비가 기여한 5할+ 승수의 크기입니다.    


+0.0승(5할 승률 기준)을 중심으로 왼쪽은 마이너스 승리기여도를 나타내고, 오른쪽은 플러스 승리기여도를 나타냅니다.  오른쪽 바의 크기에서 왼쪽 바의 크기를 빼면 그것이 실제 5할대비 +승수의 크기와 일치합니다. 



10개팀 순위를 가른 요인들


1위 NC와 2위 삼성 사이의 순위는 팀득점/실점에 해당하는 [전력요인]보다는 그 이외의 [상황요인]에 의해 갈렸습니다.  NC가 삼성에 비해 타이트한 승부에서 더 많이 이긴 결과일 것입니다.  다만 그것이 득점과 실점 데이터에서는 보이지 않는 특별한 능력인지 아니면 단순한 통계적인 오차인지는 시즌이 좀더 지나봐야 할 수 있을 것입니다. 그리고 상대적으로 NC는 타격의 팀이고, 삼성은 투수/수비의 팀입니다.  


4위팀 넥센은 투수, 수비, 상황요인 모두 마이너스임에도 압도적인 타격요인으로 +4승을 만들었습니다.  타격은 기복이 있어 믿을게 못된다는 속설이 적어도 15시즌의 넥센에게는 적용되지 않습니다. 


5위 기아는 마이너스인 타격요인을 투수 및 수비요인으로 상쇄시켜 대략 똔똔을 만들고 있는 것이 보입니다.  6위 SK는 팀실점수준은 기아와 비슷하지만 기아는 투수보다 수비의 기여가 컸다면 SK는 수비의 도움보다 투수들이 활약이 더 컸습니다.  


롯데는 kt 제외하고 가장 나쁜 팀실점 수준을 기록하고 있으며, 보통 그것이 투수의 책임이라 여겨지기 쉽지만 --- 실제로는 실점 대부분은 투수(짙은청색)가 아니라 수비(하늘색)의 책임입니다.


엘지트윈스 역시, 투수의 기여도에 비하면, 그중 일부를 수비에서 까먹고 있기 때문에 팀ERA나 팀실점에서 투수들의 기여도가 과소평가될 소지가 있습니다.


kt의 경우 [전력외 요인]에 의한 이득이 거의 없었는데, 이것은 약간 특이한 경우입니다.  대체로 큰 격차를 두고 최하위에 있는 팀의 경우 피타고리안 기대승수에 비해 실제승수가 좀더 높은 경우가 많습니다.  이것은 승률식이 가진 구조적인 특징(혹은 오차) 때문이며 14시즌 한화가 보여준 기록도 그랬습니다.    


그런데 15시즌의 kt는 좀 다른 양상을 보입니다.  통계적 확율에 근거해 추측한다면 kt는 시즌을 마치기 전에 저금해둔 "운"에 의해 두세번 정도는 [전력외 요인]에 의한 승리를 더 거둘지도 모르겠습니다.  


회색지대, 세이버메트릭스의 사각 


보통 팀득점과 팀실점 통계는 객관적 전력수준으로 인식됩니다.  많은 세이버메트릭스 지표와 분석모델이 이 가정 위에서 성립합니다.  그리고 팀의 득점, 실점을 기반으로 계산하는 피타고리안 승률이 비교적 작은 오차범위 안에서 실제 팀승률과 일치한다는 결과가 그것이 타당하다는 근거가 됩니다.


그런데, 실제승률과 피타고리안승률 사이의 gap이 비교적 작다고 하더라도, 막상 실제 각 팀 사이의 "상대적 격차"에서 그 작은 gap이 차지하는 비중은 작지 않습니다.  아래 14년 시즌 최종 데이터 기준의 WFA 결과를 보면 시즌 전체로 봤을 때도 여전히 "회색지대"가 큰 비중으로 남아있음을 알 수 있습니다.  (물론 순위표에서 극단적으로 낮은 승률이나 높은 승률을 올린 팀의 경우 제3의 요인이 작용했다기 보다는 피타고리안 승률식의 구조상 오차가 커지는 면은 있습니다.  14시즌 한화의 경우는 그런 영향도 컸을 것이라 보입니다)



프로야구에서 중요한 것은 팀의 승패 숫자의 절대적 크기가 아니라 경쟁팀과의 상대적 격차라면, 실제승률과 피타고리안 승률 사이의 "작은 격차"가 가진 중요성을 간과하긴 어렵습니다.  차트의 회색지대 (=회색bar, 실제승수-피타고리안기대승수)에 좀더 주의를 기울일 필요가 있을지도 모르겠습니다.    


분석에 사용된 WFA(Wins-Factor Analysis) 모델에 대한 자세한 사항은 다음 포스팅을 참고해주십시요.

---> [승패]를 결정하는 4가지 요인 : 타격,투수,수비,상황 http://baseball-in-play.com/209