본문 바로가기
diegobaseball
ANALYSIS

12가지 키워드로 이해하는 [세이버매트릭스] - 1/2

by 토아일당 2015. 1. 28.

 topic   RC XR BABIP FIP 타율 타점 OPS 보로스맥크라켄 톰탱고 DIPS 도루 희생번트 머니볼



언젠가부터 여기저기 출몰하고 있는 소위 [세이버매트릭스]에 대한 제 나름대로의 정리입니다.  


저는 세이버매트릭스의 본질이, 복잡한 숫자와 현란한 지표로 선수들을 품평하고 줄세우는 강력한 도구라고 생각하지 않습니다.

"야구에 대한 객관적 지식의 추구"란 세이버매트릭스의 클래식한 정의는 양날의 검 같습니다.  이 도구를 가졌으니 스스로 "객관적"이라 여긴다면 그건 오만과 허세로 이어지겠죠.  하지만 "객관적 지식의 추구"란 편견을 삼가는 스스로 비판적 자세를 말하는 것일겁니다.


이런 저런 스탯의 정의와 계산방법을 아는것보다는 세이버매트리션의 "야구에 대한 태도와 접근방법"을 이해하고 공감하는 것이 먼저인거라 생각합니다.    



1.  세이버매트릭스와 빌제임스


야구에 대한 통계적 분석을 흔히 세이버매트릭스라고 부릅니다.   맞는 말이기도 틀린 말이기도 합니다.  세이버매트릭스SABeR-metrrics라는 단어는 빌제임스가 중심이 되어 1971년에 만들어진 미국야구연구회SABR:Society of America Baseball Research 로 부터 왔고 이들이야말로 다양한 통계적 방법으로 야구에 대한 새로운 지식을 만들어냈으며 지금 야구에 대한 통계적 접근을 하는 대부분의 사람들이 이 새로운 지식체계의 영향을 받았으니 맞는 말입니다. 

하지만 세이버매트릭스의 창시자라 해도 좋을 빌 제임스는 기회있을때마다 통계적 방법과 세이버매트릭스를 동일시하는 것에 대해 경계하고 부정해왔습니다.  세이버매트릭스의 본질은 통계라고 하는 도구의 여부가 아니라 “야구에 대한 객관적인 지식의 추구” 즉 개방적이고 비판적인 정신의 문제라고 하는 것이 더 타당하다는 것입니다.    


세이버매트릭스가 전통적인 야구계 내부가 아니라 그 바깥의 아웃사이더들에 의해 만들어졌다는 것도 특이합니다.  절대적인 공헌자 빌 제임스는 당황스럽게도 통조림공장의 경비원이었고 매일 저녁 야구기록에 매달렸던 괴짜일 뿐이었습니다.  혁신적인 야구통계의 진보를 이끌어낸던 사람들은 수학자이거나 금융공학전문가이기도 했고 야구카드게임의 매니아도 많았습니다. 

그들은 자신의 지식과 경험을 통해 야구에 대한 새로운 시각을 만들어냈고 몇번의 계기를 통해 그들을 하찮게 여기고 무시했던 전통적 야구계의 배척에도 불구하고 이젠 MLB 구단운영의 주도적인 지위를 차지하는데 이르렀습니다.  



http://baseball-in-play.com/5

"빌 제임스가 세이버매트리션이 아니라구요?"



2. 야구통계에서 가장 중요한 2가지 원칙 - 타율과 타점 애호가에 대한 작별인사


David Grabiner 에 의해 작성된 세이버매트릭스 선언 The Sabermetric Manifesto 이라는 문서를 참조해서 세이버매트릭스의 2가지 중요한 원칙에 대해 다음과 같이 말할 수 있습니다.    


우선 (통계적) 연구의 목표가 무엇인지 분명히 하고 사용하는 지표와 그 목표 사이의 연관성에 활실히 집중하는 것입니다.  야구경기의 목표는 당연히 승리이며 그것은 더 많은 득점과 더 적은 실점을 통해 성취됩니다.  따라서 야구통계 또는 야구에 관한 지표는 그것이 득점의 생산과 실점의 억제와 정확히 연관되어 있을 때 가치가 있습니다.  당연해보이는 이 말은 그러나 전통적인 여러 야구통계와 정면으로 상충되기도 합니다.  


우리는 오랬동안 타자의 가치 즉 타자가 승리에 기여하는 정도를 측정하는데 [타율]이라는 지표를 매우 중요하게 여겨왔습니다.   하지만 승리에 대한 타자의 기여도를 측정하는 여러 지표 중에서 [타율]은 그 정확도가 오히려 떨어지는 편입니다.  예를들어 [출루율] [장타율]은 보통 [타율]보다 덜 중요하게 다뤄지지만 타자의 승리 기여도를 측정하는데 있어서 [타율]보다 휠씬 더 쓸모가 있는 지표입니다.


따라서 세이버매트리션은 수많은 야구통계지표 중, [승리에 대한 기여도]를 좀더 정확하게 측정하는 지표가 무엇인지 찾아내는데 몰두하며 또 그럴 수 있는 새로운 지표를 만들어내기 위해 노력합니다.


세이버매트릭스의 또다른 강조점이 있다면 그것은 “선수는 그의 동료나 감독이 아닌 자기 자신이 한 것으로 평가 받아야 한다”는 것입니다.   비교적 최근까지도 [타점]은 선수의 능력을 설명하는 매우 중요한 척도로 여겨졌습니다.   하지만 많은 타점을 올리는 것은 그 선수의 능력 뿐 아니라 그의 앞에서 출루하고 진루한 동료들의 능력에 많이 의존합니다.  [득점]기록은 그 선수 다음에 타석에 서는 동료의 능력에 크게 의존합니다.  

투수의 승리기록은 명예로운 것이지만 동료 타자의 득점 없이 승리를 얻는 방법은 없습니다.   수비수의 도움 없이 좋은 기록을 쌓아갈 수 있는 투수도 없습니다.


하여, 승리 즉 득점생산과 실점억제 능력을 좀더 분명하게 측정할 수 있는 방법, 그리고 팀과 동료가 아닌 선수 개인의 독립적인 능력과 가치를 평가하는 방법 이 두가지가 세이버매트리션들이 지난 30년동안 집중하며 연구해왔던 주제입니다.


참고포스팅

세이버메트릭스 선언 The Sabermetric Manifesto By David Grabiner  http://baseball-in-play.com/31


3.  머니볼과 세이버매트릭스 그리고 OPS


세이버매트릭스가 야구팬들에게 널리 알려지게 된 계기는 역시 [머니볼]입니다.

2000년대 초반 MLB에서 오클랜드 어슬레틱스의 성공사례 그리고 그것을 이끈 단장 빌리빈의 독특하며 탁월한 운영전략을 가리키는 말입니다.  이 이야기는  “머니볼-불공적한 게임을 승리로 이끄는 기술”이란 책으로 출판되어 베스트셀러가 되었고 브레드피트가 주연한 동명의 영화로 제작되었습니다.


빌리빈의 전략은 마법과 같았습니다.  오클랜드는 최하위권의 연봉총액을 가지고 리그에서 가장 많은 승리를 거뒀습니다.   그가 사용한 것이 세이버매트릭스였습니다.  해서 오클랜드 그리고 빌리빈의 성공사례는 야구팬들에게 이 생소한 야구지식을 알린 계기이며 동시에 지독하게 보수적인 미국야구계가 색다른 무기를 가진 안경잡이 너드들에게 손을 내밀게 된 전환점이기도 했습니다.


OPS:on-base plus slugging 는 빌리빈이 그의 팀을 구성하며 가장 중시했던 타격지표였습니다.   타율이 높고 발이 빠른 타자를 선호하던 당시의 관점과 달리, 빌리빈은 느리고 둔해도 홈런을 많이 치고 인내심을 발휘해서 볼넷을 많이 얻는 타자를 선호했습니다.   OPS는 누가 그런 타자인지 알려줍니다.  


OPS는 세이버매트릭스의 가장 성공적인 발명품 중 하나입니다.  앞서도 말했듯이 그들은 득점생산과 실점억제에 기여하는 선수의 능력을 측정하는데 집중했습니다.  수많은 타격지표 중 OPS야말로 다른 무엇보다 타자의 득점생산력을 가장 잘 평가합니다.  (물론 지금은 그보다 더 다듬어진 RC, wOBA, XR 같은 지표들이 디자인되었지만 일단 출루율+장타율 이라는 명료한 계산방법이 주는 편리함과 직관성을 능가하긴 어렵습니다)


새로운 지식을 활용한 승리는 그것의 정확해야 가능하지만 그와 동시에 비대칭성이 있어야 성립합니다.  아무도 몰랐던 것을 그들만 알고 있을 때 가능했던 마법은 경쟁자들이 모두 같은 지식을 사용하게 되자 소멸합니다. 


빌리빈이 OPS가 높은 타자를 선호했던 것은 그들이 더 많은 득점을 만들 가능성이 있기 때문이었지만 동시에 타율이 높고 발이 빠른 선수를 선호하는 시장에서 몸값이 상대적으로 낮았기 때문입니다.   그런데 시간이 흘러 모든 구단이 OPS 높은 타자의 가치를 깨닫게되자 이제는 그들이 가장 비싼 선수가 되었고 더이상 OPS 높은 타자로 팀을 구성하는 것은 머니볼이 아니게 되었습니다.


일반적으로 많이 사용하는 타격지표를 득점생산기여도 순으로 늘어놓는다면 OPS>장타율>출루율>타율 입니다.  


참고포스팅

빌리빈, OPS 그리고 오클랜드의 머니볼 MoneyBall http://baseball-in-play.com/64



4. 보로스 맥크라켄의 DIPS 혁명


 "Pitchers and Defense: How Much Control Do Hurlers Have?" / baseball prospectus, 2001년 를 통해 발표된 보로스 맥크라켄의 DIPS Defensive Independent Pitching Statistics 이론은 나름 급진적이라 자부해오던 세이버매트리션에게 조차 쉽게 받아들여질 수 없는 괴랄한 아이디어를 바탕으로 합니다.   (그는 다른 세이버매트리션들 처럼 시카고 한 로펌의 직원으로 야구계 내부의 인물은 아니었습니다) 


그의 주장은, 일단 타자가 방망이에 맞춰 그라운드 안으로 들어간 타구로 생긴 결과는 투수의 책임이 아니라는 것입니다.  그 공이 수비수가 있는 곳으로 날아갈지 아니면 그렇지않고 안타가 될지는 오직 운에 좌우되거나 아니면 팀의 수비력에 따라 결정될 뿐이라는 발상입니다.


다소 황당하게 들리는 이 급진적인 발상은 그러나 시간이 지날수록 몇가지 수정과 보완이 가해지며 세이버매트릭스의 가장 핵심적인 이론을 자리잡아갔습니다.  그리고 이를 통해 탄생한 투수평가지표가 FIP Fielding Independent Pitching 입니다.


이에 따르면 투수의 능력은 오직 사사구허용, 탈삼진, 피홈런 이 3가지 요소로만 측정되어야 합니다.  오직 이 3가지만이 야구경기에서 투수 혼자의 능력과 책임으로 생겨나는 일이기 때문입니다.  그외의 타격이벤트 즉 홈런이 아닌 안타허용은 투수의 책임이 아니라 그저 운이 나빴거나 수비수가 미처 쫒아가지 못했기 때문이라고 봅니다.  


FIP의 계산방법은 이렇습니다.

FIP = (13*피홈런 + 3*(볼넷-고의사구+몸맞공) - 2* 탈삼진) / 이닝 + FIP상수.

   *** FIP 상수는 3.20 근처의 값인데 리그환경과 시즌에 따라 조금씩 달라집니다)


FIP(또는 DIPS)가 초기의 거부감에도 불구하고 점점 신뢰할 만한 지표로 받아들여지게 된 이유는 막상 적용을 해보니 그럴싸하게 들어맞았기 때문입니다.  어느 시즌 유달리 좋은 성적 즉 낮은 ERA를 기록한 투수에 대해 만약 FIP가 ERA보다 확연하게 높을 경우 그 다음시즌에는 거짓말처럼  FIP에 가까운 ERA로 회귀해버립니다.  반대로 잘던지던 투수의 어느시즌 ERA가 상당히 높아졌는데 FIP가 그 이전의 좋았던 시즌의 ERA와 비슷하게 낮았을 경우 대체로 다음시즌에는 원래 수준의 낮은 ERA로 회복합니다.


피홈런, 사사구허용, 탈삼진 이 세가지 요소만으로 계산하는 FIP 지표가 신기하게도 한 투수의 커리어를 쭈욱 따라가보다면 그의 ERA와 거의 같아지며 다음시즌의 ERA를 예측하는데 있어서 이번시즌의 ERA보다 FIP가 휠씬 정확하고 신뢰할 만하다는게 경험적으로 증명된 것입니다.


DIPS이론은 다른 측면에서 BABIP 이론이라고 불리기도 합니다.  BABIP Batting Average on Ball In Play 는 DIPS와 반대로, 타자의 배트에 맞은 공이 안타가 될 확율입니다.  공이 배트에 맞지 않은 상황을 측정하는 것이 FIP이니 그 나머지 부분이 BABIP이 됩니다.  실제로 측정해보면 탈삼진과 홈런을 제외하고 계산한 피안타율 즉 피BABIP은 좋은 투수나 나쁜 투수나 거의 차이가 나지 않습니다.   


보로스 맥크라켄이 주장한 황당한 이론이 실제로 맞아 떨어진다는 것입니다.  어느 투수든 일단 공이 타자 배트에 맞은 다음에는 확율적으로 거의 비슷한 결과가 나타납니다.  비슷한 확율로 안타가 됩니다.  좋은 투수와 나쁜 투수의 차이는 삼진을 많이 잡고 홈런을 적게 맞고 볼넷을 적게 내주는 데에서 생겨날 뿐입니다.  (BABIP이 그렇다고 다 같진 않습니다.  다만 그동안 막연하게 생각했던 것보다는 비교도 안될 정도로 작은 차이인 것은 사실입니다)


야구는 상대적인 것이기 때문에 이런 이론은 투수 뿐 아니라 타자에게도 적용됩니다.  어느 타자의 시즌 BABIP이 유독 높았다면 그 타자의 좋은 성적은 운이 좋았기 때문이며 다음 시즌 BABIP이 리그평균수준으로 회귀하기 때문에 그 타자의 성적은 하락할 가능성이 높습니다.  


2013시즌 규정타석을 채우진 못했지만 4할에 육박하는 고타율로 이병규와 타격왕 경쟁을 했던 채태인이 그에 해당하는 사례입니다.  물론 그는 좋은 타자이지만 2013시즌 그의 BABIP은 무려 0.463 이었습니다.  타자마다 차이는 있지만 어느 타자든 BABIP은 보통 3할대 중반에서 후반 사이에 있으니 그의 지나치게 높은 BABIP은 확실히 정상이라 보긴 어려웠습니다.  실제로 14시즌이 되자 그의 타율은 대폭 하락했습니다.  실력이 줄었다기보다는 행운이 그를 떠난거죠.


다만 DIPS 또는 BABIP 이론은 혁신적이며 동시에 사실적이기도 하지만 완전한 것은 아닙니다.  즉 배트에 맞아 그라운드로 날아간 타구의 결과가 전통적인 관점처럼 무조건 투수의 책임이라는 것은 확실히 부정되었지만 그렇다고 전혀 책임이 없다고 할 정도는 아니었습니다.


땅볼, 플라이볼, 라인드라이브 각각에 따라 차이는 있지만 후속연구에 의해 대략 25%-30% 정도는 투수의 책임이고 나머지가 수비와 운에 달려있다고 합니다.  그리고 투수에 비해 타자의 경우는 휠씬 더 BABIP에 영향을 미칩니다.  좋은 투수가 피BABIP이 낮다고 보긴 어렵지만 좋은 타자들 중 일부는 BABIP이 높은 경향이 발견되기도 합니다.  다만 이 경우라도 투수의 피BABIP에 비해 타자의 BABIP이 좀더 타자외존적이라는 뜻일 뿐, 타율에 비해 휠씬 적은 차이인 것은 사실입니다.      


어쨌든 세이버매트리션들의 글에서 수도 없이 등장하는 투수의 FIP나 타자의 BABIP은 이런 배경으로 고안된 지표들입니다.   요컨데, 투수에게 있어 피홈런, 사사구허용, 탈삼진 이 3가지만 가지고 봐도 오히려 종합적인 성적지표인 ERA 이상의 정확성을 가진 능력측정을 할 수 있다는 것이 이 아이디어의 핵심입니다.  


참고 - http://blog.naver.com/toanus/60196530201

임찬규는 정말 트윈스 마운드의 미래일까? #1 : ERA-FIP에 기초한 분석



5. 사소하지만 중요한 투수지표들 HR9  BB9  SO9  SO/BB


평균자책점ERA는 투수에 대해 가장 많이 사용되는 측정지표입니다.  한때 [승리]를 최고의 미덕으로 여기던 시대에 비하면 확실한 변화입니다.  다저스에 간 류현진이 인터뷰마다 승리보다 ERA를 더 중요하게 여긴다고 말하는 것도 이런 변화의 결과일 겁니다. 


승리는 투수의 능력보다 팀 타자들 혹은 뒤에 등판할 투수들의 역량에 더 크게 의존하고 있기 때문에 이런 변화는 일리가 있습니다.  그런데 앞의 DIPS이론에 의하면 이 또한 단점을 가집니다.  ERA는 달리 쓴다면 ER/9 입니다.  즉 9이닝당 자책점. 이란 뜻입니다. 


점점 더 많이 목격되는 투수지표 HR/9 BB/9  SO/9 SO/BB 는 그런면에서 ERA와 구조가 같습니다.  ERA가 9이닝당 자책점허용 이라면 각각은 홈런허용, 사사구허용, 삼진획득 입니다.  만약 ERA만큼 혹은 그 이상으로 FIP (피홈런, 사사구, 탈삼진만으로 계산되는 투수평가지표) 가 신뢰할만하다면 일견 허술해보이는 HR9 BB9 SO9 SO/BB 가 그보다 못할게 없습니다.  


하여 9이닝당 피홈런, 사사구, 탈삼진 지표는 아주 믿을만하다 여겨지는 9이닝당 자책점에 비해 전혀 하찮고 사소한 지표들이 아닙니다.  피홈런은 대략 25-30%, 사사구와 탈삼진은 35-40% 정도의 비중으로 ERA를 결정한다고 볼 수 있습니다.  


더구나 이런 DIPS 계열의 지표들은 또다른 장점이 있습니다.  비교적 작은 사이즈의 데이터만으로도 신뢰할만한 통계적 결과를 계산할 수 있기 때문입니다.  한 투수의 시즌별 ERA는 좀 들쭉날쭉합니다.  어떤 분석가들에 의하면 적어도 800이닝이나 1000이닝 정도의 기록이 쌓여야 ERA의 통계적인 신뢰성이 보장될 수 있다고 합니다.  반면 SO9 K/BB BB/9 같은 지표들은 그보다 휠씬 적은 이닝만으로 통계적으로 신뢰할만한 계산값을 얻을 수 있습니다.


해서 다른 리그 출신의 투수를 영입하는 상황에서 ERA가 아닌 SO9 K/BB BB/9 같은 지표들이 많이 사용되는 것을 볼 수 있습니다.  충분히 많지 않은 투구이닝의 결과로 만들어진 ERA는 리그환경이 달라질 때 크게 요동칠 수 있습니다.  하지만 HR9 BB9 SO9 같은 지표는 ERA에 비해 리그환경의 영향을 휠씬 적게 받고, 적은 사이즈의 데이터만으로도 통계적으로 안정된 예측값을 기대할 수 있습니다.   



6. 투수의 구위와 제구력.  정통파와 기교파 투수


투수의 구위 또는 제구력에 대한 관점 역시 세이버매트릭스에 의해 새롭게 해석되고 있습니다.  우리는 흔히 “이 투수는 제구가 좋다” “저 투수는 구위가 좋다”고 말합니다.  그렇다면 어떤 투수를 제구가 좋다 해야 하며 어떤 투수가 구위가 좋다 할 수 있을까요?


제구란 일반적으로 원하는 곳에 공을 던질 수 있는 능력이란 뜻입니다.  그런데 투수가 방금 던진 공이 원하는 곳으로 간 것인지 아닌지 관객은 알길이 없습니다.  심지어 타석의 타자나 벤치의 감독조차 그걸 다 알수는 없습니다.  포수의 미트 위치로 그것을 판단하기에 충분하지 않습니다.  트릭이 있을 수도 있기 때문입니다.  따라서 “제구가 좋다”라는 것은 매우 불확실하고 모호한 개념입니다.  


세이버매트리션들은 이에 대해 몇가지 수정을 가합니다.  첫째 그들은 제구control 이란 개념과 던진곳location 이란 개념을 구분합니다.  전통적인 의미에서 제구control 은 의도의 문제지만 세이버매트리션에게 로케이션은 결과이고 측정가능한 대상입니다.   스트라이크 존의 가장자리 또는 스트라이크 존의 낮은 곳에 도착한 공은 보통 좋은 로케이션이라 불립니다.  그것이 투구가 의도하고 control했든 아니든 말입니다.

대신 control은 “스트라이크를 던지는 능력”으로 정의합니다.  예, 이것은 정의의 문제입니다.  야구를 측정가능하고 관찰과 분석의 대상으로 삼기 위해 필요한 과정이죠.  만약 제구가 “의도”의 문제라면 그것은 관찰과 분석의 대상일 수 없으니까요.


해서, “제구control이 좋은 투수가 볼넷을 적게 허용한다”가 아니라 “볼넷을 적게 허용하는 투수를 제구가 좋은 투수라고 부른다”라고 뒤집어 놓습니다.  이렇게하면 [제구control]이란 것을 측정하고 분석할 수 있게 됩니다.


구위도 마찬가지의 재정의를 거칩니다.  구위란 무엇일까요?   누구라도 구속과 구위가 같지 않다는 것을 압니다.  멋지게 꺽이는 브레이킹볼을 가진 투수가 단지 평균구속이 낮다는 이유로 구위가 약한 투수라 할 수는 없습니다.

이들은 “삼진을 많이 잡는 투수”라는 개념을 “구위가 좋은 투수” 라는 개념 대신 사용합니다.  


이에 대해 아주 익숙한 반문이 있을 수 있습니다.  “맞춰잡는 투수”에 대한 이미지입니다.  세이버매트리션들은 대체로 “맞춰잡는 투수”란 허상이라고 말합니다.  “맞춰잡는 투수”란 투수가 아웃카운트를 잡는 단 두가지 방법 즉 탈삼진과 범타아웃 두가지 중 탈삼진 능력은 떨어지지만 타자가 배트에 맞춰서 그라운드로 들어간 타구 중 다른 투수보다 더 높은 비율로 범타를 만들어내는 능력을 가졌다는 뜻입니다.


그런데 앞에서 소개한 BABIP 이론에 의하면 투수는 맞아나간 공 Ball in Play 에 대해 통제할 수 있는 범위가 제한적입니다.  실제로 다른 투수들에 비해 확연하게 “맞춰잡는 능력”을 통계적으로 보여준 투수란 거의 없습니다.  아주 아주 예외적인 경우가 없는 것은 아니지만 정말 정말 희박한 확율이며 그 조차 통계적인 오차 가능성인지 아닌지 불분명합니다.


세이버매트리션들은 대신 “땅볼투수”과 “플라이볼투수”를 구분해냅니다.  역시 BABIP 이론의 연장선상입니다.  배트에 맞아나간 공 중 안타가 될 확율과 범타가 될 확율에서, 땅볼과 플라이볼은 그 성향이 좀 다릅니다.   땅볼은 플라이볼에 비해 수비의 영향을 거의 10% 정도 더 받습니다.   상대팀 수비력에 의해 0.280의 타자가 0.300 의 타자가 될 수도 있다는 뜻입니다.  그리고 땅볼은 장타가 될 가능성이 아주 낮습니다.  플라이볼은 땅볼에 비해 안타확률은 좀더 낮지만 장타가 될 가능성이 높습니다. 


강속구투수, 기교파투수, 맞춰잡는 투수와 같은 통계적으로 측정할 수 없거나 세이버매트릭스의 새로운 이론에 배치되는 전통적 개념을 배제하고, 볼넷허용이 적은 투수, 탈삼진능력이 뛰어난 투수, 땅볼비율이 높은 투수 같은 개념으로 그것을 대신합니다.   이런 것이 좀 덜 낭만적으로 보이긴 하지만 어쨌든 세이버매트리션들은 그런 사람들입니다.


비슷한 주제의 포스팅

컨트롤 Control 과 커맨드 Command 또는 로케이션 Location  http://baseball-in-play.com/52


(다음편에서 계속  http://baseball-in-play.com/26 )