2019년 1월 6일 일요일

[독서] 빅데이터 시대, 「데이터 분석의 힘」

올해 첫 독서로 고른 책은 이토 고이치로의 「데이터 분석의 힘」이라는 책이다.  빅데이터가 유행하면서 수 많은 데이터 분석 책이 나왔는데 내가 이 책을 골랐던 이유는 이 책의 부제 때문이었다.  "그 많은 숫자들은 어떻게 전략이 되는가"  요즘 회사에서 새로운 솔루션 기획을 하며 데이터 분석의 필요성이 있던 터라 한번 읽어보자는 가벼운 생각에 읽기 시작했다.

이책의 장점이자 저자가 밝힌 목표는 수식 없이 데이터 분석을 이야기한다는 사실이다.  데이터 분석에 필연적으로 따라오는 것이 통계적 분석 기법이며, 이 통계적 분석을 위해서는 아주 간단하게라도 수학 공식이 따라오게 되는데 이 책에서는 거의 공식이 등장하지 않는다.  공식이 나오더라도 X가 Y에 비례한다 정도로 언급되기 때문에 숫자나 공식에 알러지가 있는 사람들이 읽기에 적합하다.

하지만 그래서 그런지 사례를 분석할 때 왜 그렇게 나올 수 밖에 없는지 구체적인 이유를 알고 싶을 수 있지만 그 수준까지 내려가지는 않는다.  다행이 저자가 책 뒷쪽에 부록으로 "더 알고 싶은 이들을 위한 참고도서" 정도는 제시하고 있어서 더 궁금한 사람들은 그 책들을 참고하면 되지만, 솔직히 추천 하는 책들은 거의 논문 수준이거나 대학교 교재 같은 책들이라 조금 아쉽다.


본문의 내용은 크게 데이터 분석 기법 중 "인과관계"를 분석할 수 있는 방법들을 설명한다.  데이터를 분석하면서 "상관관계"가 존재한다고 반드시 그것이 "인과관계"가 될 수 없다는 사실을 매우 강조하며 이러한 "상관관계"가 "인과관계"가 되기 위한 조건이나 분석 방법을 말해준다.  RCT(Randomized Controlled Trial) 분석, RD디자인(Regression Discontinuity Design), 집군분석(Bunching Analysis), 패널 데이터 분석(Panel Data Method)를 한 장(Chapter)씩 할애하여 설명한다.  각 장에서는 실제 저자가 참여했던 데이터 분석 사례들을 제시하고 어떤 식으로 분석을 했는지를 설명하고, 각 장의 마지막에는 해당 분석 기법의 장점과 제약사항, 단점을 설명하는 패턴으로 이루어져있다.

이 책을 읽으면서 든 생각은 작년에 회사 내부 MBA 과정 중 하나였던 마케팅 분석에서 배운 데이터 분석을 공부하기 전에 이 책을 먼저 읽었으면 좋았을 것 같다는 생각을 했다.  MBA 과정에서 데이터 분석은 기본적인 내용 보다는 갑자기 분석으로 넘어가버려 내가 분석을 배우면서도 왜 이런식으로 분석을 해야하는지 내 나름대로 깨우쳐야 했는데 이 책을 먼저 읽었더라면 더 쉽게 접근하고, 더 쉽게 이해하고 더 흥미롭게 공부할 수 있었을 텐데 그 부분이 아쉽다.

결국은 데이터를 수집할 때 어떠한 데이터를 수집하느냐 부터 출발을 해야 하고, 그러기 위해서는 데이터 분석을 통해 무엇을 얻을 것인지가 명확하게 들어나있지 않으면 시작부터 잘못 될 수 있기에 초기에 목표를 분명하게 하는 것이 중요하다 하겠다.


참고로 이런식으로 무언가 새로운 기술, 또는 기존에 있던 기술이라도 일반인들이 쉽게 읽을 수 있도록 접근하는 책들을 보면 대부분 저자가 일본인이다.  물론 우리나라도 기초과학 분야에서 이런 시도들이 많이 일어나고 있지만 조금 더 저변이 확대되면 좋겠다는 생각을 해본다.


댓글 없음:

댓글 쓰기