본문 바로가기
diegobaseball
토아일당Notes

AI, 오픈소스 - 세이버메트릭스가 세상을 먹어치운 비결

by 토아일당 2019. 7. 23.

[뻘글] 손정의 회장이 문재인대통령을 만나 했다는 조언이 흥미로웠다. 3가지. AI, AI, AI

그가 한국대통령에게 조언을 한 것이 처음이 아니다. (이번에 안 일이지만) 97년 금융위기 직후인 98년 김대중대통령을 만나 --- 미래의 먹거리에 대해 3가지를 이야기했다고 한다. 그 셋이 브로드밴드, 브로드밴드, 브로드밴드.

그것 하나만으로 모든게 설명될리는 없지만 어쨌든 --- 그 브로드밴드(초고속인터넷망)는 한국의 IT산업, 좀더 넓게 보면, 온라인게임, 대중음악, 웹툰 등 컨텐츠산업 전체에 강력한 이니셔티브가 된 것이 사실이다.

그리고 이번에 AI, AI, AI. 의.미.심.장.

그런데 AI를 어떻게 활성화하지? 브로드밴드는 어떻게 하는지 대략 각이 나온다. 땅 파고 전신주 세우고 선로 깐다. 연결한다. 방방곡곡 구석구석 전부 연결한다. 한국이 그런거 원래 좀 잘한다. 많이 잘한다. 게다가 거주지역에 대체로 밀집되어 있다. 아파트 등 공동주책 거주비율이 높다. 그러니 더 잘했을 수 있겠다.

근데 AI는? 어디를 어떻게 파야 하지?

손정의회장은 교육, 연구, 투자 뭐 이런 키워드를 추가로 제시한거 같은데 그렇다 해도 뜬구름스러운건 마찬가지다. 어디를 파야 하는거냐고.

그런데 [야구]에 힌트가 하나 있다.

[우리는 모두 거짓말을 한다]는 데이터 과학자 세스 스티븐스 다비도위츠가 --- 구글검색키워드.를 기반으로 사람들의 숨겨진 심리를 분석한 책이다. 엄청난 베스트셀러이고 빅데이터에 관한 재미있는 통찰이 포함되어 있다.

거기에 이런 구절이 나온다.

"데이터과학이 더 발전하려면 세이버메트리션(야구통계가)들이 어떤 일을 하는지 관찰하고 그것이 데이터과학의 다른 분야로 널리 퍼지기를 기대하라는 이론이 있다.

야구는 거의 모든 것에 대한 포괄적데이터세트를 보유한 최초의 분야였으며, 일단의 똑똑한 사람들이 데이터를 이해하는데 기꺼이 일생을 바쳤다. 이제는 거의 모든 분야가 그렇게 되고 있다.

야구가 선두에 서고 다른 모든 분야가 그 뒤를 따른다. 세이버메트릭스가 세상을 집어삼켰다.(Sabermetrics eats the world - 주.번역본에는 없지만 원문에 있던 문장이라 추가함.)"

아하. 야구통계가, 세이버메트릭스가 이렇게 굉장한 것이다. 이 문장을 다시 본다. "야구가 선두에 서고 다른 모든 분야가 그 뒤를 따랐다"

물론 저자도 어지간한 야구팬이라 살짝 야뽕이 발동한 면이 있었겠지만 --- 적어도 어느만큼 사실이다. 빅데이터의 꽤 많은 셀럽들이 [세이버메트릭스]의 선구적 도전을 굉장히 높게 평가한다.

어떻게 그럴 수 있었을까?

즉, '스포츠 치고' '스포츠 주제에' 굉장한 정도가 아니라 --- 우리시대 가장 강력한 이니셔티브인 데이터과학, 빅데이터 일반으로 놓고 볼 때도 --- 그 혁신성은 이례적이었다.

어떻게 그럴 수 있었을까?

책의 그 앞 문장에 답이 있다. "야구는 거의 모든 것에 대한 포괄적데이터세트를 보유한 최초의 분야였으며, 일단의 똑똑한 사람들이 데이터를 이해하는데 기꺼이 일생을 바쳤다."

AI, AI, AI라는 논제를 풀 중요한 키워드가 [공개데이터]라고 생각한다. 물론 호기심과 열정이 따라붙어야 하지만 1)어느분야든 오덕들은 있기 마련이고 2)설사 그게 좀 결핍되어 있다 해도, 정부레벨에서 당장 어쩌기 어려운 문화저변요인이기도 하고.

그러니 이제 공개데이터, 공개데이터, 공개데이터.를 외쳐야 한다.

머신러닝 여명기에 MNIST가 있었던 것처럼 --- 세이버메트리션에게는 ScoreSheet/RetroSheet프로젝트가 있었다. 휠씬 더 빠르게 발전하면서 --- PitchFX가 있었고 StatCast까지에 이르렀다.

물론 AI와 데이터과학은 좀 다른 주제이긴 하다. 하지만 최근 AI분야의 가장 중요한 엔진은 머신러닝이고 머신러닝은 어쨌든 데이터를 먹이로 삼아 성장한다.

나는 정부가 AI를 위해 뭔가를 하려 한다면, 다른 무엇보다 --- 정부가 생산하는, 생산에 관여하는 모든 데이터를 HWP는 당연히 아니고 PDF도 아니고 --- csv나 제대로 태그가 달린 xml 형식으로 바꾸는걸로 출발하길 바란다.

이런저런거 생각은 천천히 하고, 묻지도 따지지도 말고 지금 당장 --- 대한민국에 존재하는 모든 공공데이터.를 csv로 생산-재생산하는 것만으로 --- 세상은 바뀔 수 있다. 그냥 존재하는 모든 데이터를 re-fomating한다. 땅파던 그 정신으로 그냥 막 한다. 전부 다 csv로 만든다. 그 다음 오픈API를 통해 public-access를 제공한다.

초고속인터넷을 가진 사회에서는 그걸 활용하려는 혁신가들이 모이고 자란다. 더 많은 공개데이터는 빅데이터산업과 AI분야에서 그런 역할을 하게 될 것이다.

그리고나면 --- 한국은 굉장히 데이터산업-프렌들리하고 AI프렌들리한 사회로 변할 것이다. 브로드밴드인터넷이 한때 작동했던 것처럼 --- 공개데이터도 작동할 것이다.

공개데이터가 얼마나 굉장한 일을 해낼 수 있는지, 야구와 세이버메트릭스에서 뭐가를 배워야 한다면 --- 바로 그거다. 공개데이터의 힘.

야구만세. 세이버메트릭스 만세.

 

토아일당 페이스북 

https://www.facebook.com/toa.united/posts/2292976031013856

 

보안 확인 필요

메뉴를 열려면 alt + / 키 조합을 누르세요

www.facebook.com