본문 바로가기
diegobaseball

ANALYSIS65

KBO 버전의 WAR 포지션 조정상수 - 2루수와 우익수의 재평가 KB리포트에 이어 스탯티즈가 서비스를 시작했습니다. 척박했던 환경이 점점 달라지는 것을 느끼며 기쁩니다. 스탯 사이트가 오픈되면 팬들이 가장 관심있어 하는 것은 어쩔 수 없이 “줄세우기”입니다. 객관적인 지표에 근거해서 선수들의 득점, 승리기여도를 측정하는 것이 나쁘다 하긴 어렵지만, 어떤 종류의 지표든 늘 오차와 왜곡의 여지를 가지고 있습니다. WAR은 포지션, 시즌 등등의 차이를 보정해서 모든 선수를 하나의 척도로 평가할 수 있다는 장점이 있어 많이 선호되지만 그러나 동시에 가장 오차와 왜곡의 여지가 큰 지표 중 하나이기도 합니다. 흔한 오해와 달리 WAR의 장점은 “정확도”가 아니라 “종합지표”라는데 있기 때문입니다. 수비퍼포먼스를 정확하게 측정하는 방법은 애당초 raw-data의 문제이기 때문에 .. 2015. 10. 16.
잠실효과의 함정 : 타자의 불리함아 투수의 유리함으로 상쇄되지 못하는 이유 잠실구장은 타자에게 불리하다. 다른 구장이면 넘어갈 타구들이 펜스 앞에서 잡힌다. 좌우중간의 거리는 메이저리그 기준으로도 최상위권에 속할 만큼 크다. 다음은 잠실X존이 사라진 2011년부터 2015년(9월10일 현재 기준) 잠실과 잠실이 아닌 구장의 모든 타석에 대한 통계이다. * Run/40PA 는 경기당 득점 대신 사용한다. 경기당 득점은 연장이닝의 차이, 홈팀이 9회말 공격을 하지 않고 끝낸 경우 등으로 인한 오차 때문에 타석당 득점이 좀더 정확한 득점환경 지표가 된다. 대신 좀더 직관적인 이해를 위해 한 경기 당 타석수에 해당하는 [40타석 당 득점]으로 변환한 것이다. 모든 타격지표에서 비-잠실이 더 높다. 넓은 구장으로 인해 외야의 타구가 안타가 될 확율이 높다고 생각하기 쉽지만 BABIP 조.. 2015. 10. 13.
득점권 또는 close&late 의 타율 : KBO 2010_2015 흔히 말하듯이, 득점권(RISP) 타율은 결국 커리어 타율에 수렴하기 때문에 큰 의미가 없다는 것은 맞지 않습니다. 꽤 많은 타석수가 누적된 이후에도 자신의 커리어타율보다 꽤 높은 득점권 타율을 유지하는 타자들은 종종 있습니다. 다음은 KBO 2010년 이후 현재(2015.9.20) 까지 전체 누적타율과 득점권상황(RISP) 타율을 차원 상에 표시한 결과입니다. (500타석+) 왼쪽 위 영역과 오른쪽 아래 영역을 나눈 오렌지색 점선은, 전체 타율과 RISP타율 사이의 선형추세선입니다. 따라서 왼쪽 위에 있는 타자들은 자신의 타율보다 높은 득점권 타율을 보인 경우이고 오른쪽 아래는 그 반대입니다. 박용택, 유한준, 박석민, 최정, 정수빈 등은 자신의 평균타율보다 2푼에서 3푼 정도 높은 득점권 타율을 보입.. 2015. 9. 25.
Mr.클러치를 찾아서 : KBO2010_2015 Mr.클러치를 찾아서 RVA by WPA Mapping : KBO 2010-2015 WPA는 세이버메트릭스 계열의 지표 중 가장 상황의존적(situational)이고 그 반대편에는 RunValue 기반의 wOBA 같은 중립적(neutral)한 지표가 있습니다. wOBA 같은 중립적 지표는 상황과 무관한 선수의 플레이를 평가합니다. 10점을 앞선 상황에 나온 1점 홈런과 3점차 열세를 뒤집는 끝내기 만루홈런을 동등한 가치로 간주합니다. 똑같이 하나의 홈런이며 1.4점 정도의 가치를 가진 플레이로 봅니다. 반면 WPA는 이 두 플레이를 약 40배 정도의 차이로 평가합니다. 둘 중 어느 하나가 틀렸다고 할 수는 없습니다. 둘다 합리적이고 객관적인 통계적 근거에 입각해 있습니다. 1점 홈런과 4점 홈런의 차이는.. 2015. 9. 22.
3Ball 에서 풀카운트 까지 - [볼카운트Chronicles ep.1] 타석승부는 볼카운트 싸움부터 시작합니다. 유리한 카운트는 확율적으로 더 나은 결과를 가져옵니다. 타자에게 가장 유리한 볼카운트는 단연 3B0S 입니다. 14시즌 볼카운트 별 타격결과를 보면, 3B의 결과는 평균보다 많이 좋습니다. 타출장 .500/ .972/ .887 입니다. 하지만 이 기록의 대부분은 볼넷에 관한 것입니다. 3B에서 승부가 결정된 타석은 45853타석 1101번인데 그중 939번은 볼넷이고 몸에맞는공이 2번 있습니다. 이걸 빼고나면 3B0S 에서 실제로 타격이 이루어진 경우는 62번 밖에 안됩니다. 좀더 데이터가 많은 05_11 기간을 보면 타출장 .365/ .956 .626 으로 14시즌보다는 약간 낮습니다. 7시즌 동안 타격이 이루어진 횟수는 422번입니다. 전체 타석결과 중 0.1.. 2015. 8. 5.
9회말 1점차 리드, 얼만큼 "쫄아야" 합리적일까? 1점차 리드한 상태로 마지막 이닝 9회말이 시작될 때, 수비팀의 승리확율은 78%입니다. 이는 MLB 1979년부터 1990년까지 12시즌의 모든 경기를 분석한 결과입니다. (기준은 경기당 득점 5.0) 대략 이런 상황 네번 중 한번 정도 역전패를 허용한다는 의미가 됩니다. 이때 선두타자 출루를 허용한다면? 승리확율은 65%로 낮아집니다. 50%보다 높기는 하지만 승리를 장담하긴 어려운 숫자입니다. 대신 첫타자를 잡아내며 1사 주자없음 상황이 되면, 승리확율은 88%로 높아집니다. 야구는 모르지만, 동시에 확율의 경기입니다. 득점차, 아웃카운트, 베이스 상황에 따라 수많은 경기에서 벌어졌던 결과를 분석하면 경기결과에 대한 통계적 확율을 예측할 수 있습니다. 적어도 과반의 승리확율을 유지할 수 있는 조건은.. 2015. 7. 29.
"최적 타순"에 관한 통계적 기준 - 라인업 놀이를 위한 세이버메트릭스 가이드 야구의 매력 중 상당부분이 “전략게임”에 있는 바, 내 맘대로 감독 노릇하며 즐기는 라인업 놀이야 말로 “팬질” 중의 “팬질”이라 할 수 있겠습니다. 거기에 방대한 야구통계에 기반한 각종 데이터를 첨가하면 금상첨화라 할 수 있겠네요. 세이버메트릭스 또는 최근의 야구통계를 고려했을 때, 1번부터 9번까지의 최적 라인업에 대한 통계적 기준에 대해서입니다. 리드오프 - 닥치고 출루 “1번타자는 단지 1회에 처음 등장하는 타자일 뿐이다.” 라고 말하기도 하지만 꼭 그렇지는 않습니다. 1번타자는 다른 타순의 타자들에 비해 통계적으로 휠씬 더 많이 이닝 선두타자로 나오고 휠씬 더 자주 주자없음 타석에 섭니다. 전체 이닝 중 1번타자가 선두타자로 나오는 비율은 21% 정도이고 다른 타자들은 평균 10% 미만입니다. .. 2015. 7. 15.
"메가트윈스포" 방전현상은 정말 있을까? - 다득점 경기 후유증에 대한 통계 야구팬 입장에서 응원팀이 화력 폭발로 다득점 경기를 하는데 마다할 이유는 없습니다. 하지만 좀 아껴서 다음 경기에 쓰면 안될까 하는 생각도 합니다. 왠지 에너지가 과도하게 방전되서 다음 경기에는 빈타에 허덕일 것 같은 걱정도 듭니다. 이런 것을 “메가트윈스포 신드롬(?)"이라 하는데, 유래는 어떤 팀이 지독한 암흑기에 빠져있던 2008년으로 거슬러 올라갑니다. "메가트윈스포"의 유래 엘지트윈스는 6월20일 롯데전 부터 시작해서 5경기동안 1점, 3점, 0점, 2점, 1점씩 득점하고 있었습니다. 경기당 1.5점도 안되는 득점력이었습니다. 그러다가 6월26일 삼성전에서 뜬금없이 대폭발을 일으키며 20:1 대승을 거둡니다. 홈런 3개 포함 21안타로 상대팀 마운드를 두들겼습니다. 그리고 다음 경기부터 다시 침.. 2015. 7. 13.
어떤 투수는 "맞춰잡는 능력"을 가지고 있다 - STATCAST 가 첸웨인에게서 발견한 것 오랬동안 세이버메트릭스는, "배트에 맞고 인플레이된 타구의 결과(BABIP)"는 투수의 책임이 아니라는 이론을 지지해왔습니다. 그것은 운과 수비력에 의해 결정된다고 보기 때문입니다. 좀더 엄격한 통계적 분석을 통해 그 안에 포함된 투수의 영향을 주목하는 입장도 있긴 하지만 BABIP은 투수와 무관하다는 이론에 근거해서 만들어진 FIP 같은 지표는 ERA보다 휠신 더 신뢰할 만한 것으로 평가받습니다. 같은 맥락에서, TTOs(Three True Outcomes)라는 표현 그대로, 삼진, 볼넷, 홈런 이 세가지 스탯만 투수에게 중요하고 "진짜"이기 때문에 --- 투수와 타자의 대결에서 만들어지는 타구(batted ball in play)는 관심 밖으로 밀려나게 되었습니다. 혹시 누군가가 "어떤 투수는 빚맞은.. 2015. 6. 29.
[승패]를 결정하는 4가지 요인: 타격,투수,수비,상황 - WFA(Win-Factor Analysis) 올 시즌 KBO리그는 6월22일 기준 672경기를 치뤘고 이는 전체 경기 중 47%에 해당합니다. 이 시점에서 7위 SK는 32승32패1무로 정확히 5할 승률을 맞추고 있고 1위 NC와는 로 정확히 SK는 6경기 뒤져 있습니다. NC가 5할 승률에 비해 더 이긴 6번의 승리가 평범한 팀과 리그 1위팀 사이의 격차입니다. 그렇다면 이 6번의 승리는 무엇으로 만들어졌을까요? 야구라는 경기는 더 많은 득점과 더 적은 실점으로 승부를 가립니다. 팀승률과 그 팀의 득점과 실점 데이터 사이에는 상당히 강한 연관성이 있습니다. 한 경기만 놓고 보면 10점차가 넘는 경기도 있고 1점차의 아슬아슬한 승부도 있지만 한 시즌 100경기 이상을 치르고 나면 팀의 전체 득점과 실점 기록은 승률과 거의 일치하게 됩니다. 이를 이.. 2015. 6. 22.
BABIP이 한국에 와서 "바빕신"이 되다. *** BABIP 시즌조정 계산실수가 있어서, 다시 계산하여 20150615 업데이트했습니다. 2001년 보로스 맥크라켄이라는 이름없는 대학원생에 의해 발견된 이후, BABIP 만큼 야구통계 또는 세이버메트릭스에 큰 영향을 미친 것도 별로 없습니다. BABIP은 Batting Average on Balls in Play 의 약자인데, 홈런, 볼넷, 삼진을 제외하고 배트에 맞아 인플레이존에 들어간 타구에 대한 타율입니다. 이 개념의 핵심은 "볼인플레이된 타구가 안타가 될지 아닐지는 투수의 책임이 아니다" 라는 것이었습니다. 참고 - 보로스맥크라켄의 DIPS혁명 - http://baseball-in-play.com/151 그라운드를 지배하는 보이지 않는 손 "바빕신" 야구통계에서 뿐 아니라 복잡한 이론적 개.. 2015. 6. 12.
1번타자의 역설 - 더 자주 등장하지만 덜 효율적인 경기를 보다보면 이번 이닝은 타순이 좋다 또는 타순이 나쁘다고 하는 이야기를 합니다. 타선의 9명이 모두 똑같이 잘칠 수는 없으니 보통 앞에 출루를 잘 하는 선수를 두고 3-4-5번에 팀에서 제일 잘치는 타자를 배치해서 득점을 노리는 게 보통입니다. 그렇다면 어떤 타자가 이닝의 선두타자로 나왔을 때 가장 많은 득점을 할 수 있을까요? 즉 가장 좋은 타순이란 어떤 것일까요? 지난 14시즌을 기준으로 보면 2번타자부터 시작되는 타순입니다. 1번타자보다 오히려 2번타자가 이닝의 첫타석에 섰을 때 평균적으로 더 많은 득점을 올립니다. 분석대상은 KBO2014 576경기 9회 이전 이닝입니다. 9회 이후 이닝의 경우 홈팀과 어웨이팀 공격횟수가 다르고 끝내기 승리로 완료되지 않는 이닝이 있기 때문에 제외합니다. 1.. 2015. 5. 26.