빅데이터의 다음 단계는 예측분석이다.

http://book.naver.com/bookdb/book_detail.php?bid=8377266

빅데이터의 다음 단계는 예측 분석이다: 국내도서; 저자 : 에릭 시겔(Eric Sigel) / 고한석역; 출판 : 이지스퍼블리싱 2014.11.26

회사에 책꽂이에 있던 책중에 어떤책을 읽을까 고민하다가, 데이터분석을 복수전공하면서 읽어보려다가 읽지 못한 "빅데이터의 다음단계는 예측분석이다"라는 책을 골랐다.

책의 내용은 다양한 시행착오를 통해서 예측분석을 성공시킨 사례들과
어떤 원리로 예측분석을 진행하는 것이 좋은지 소개하고 있다.

간단하게 내가 본 내용을 정리했다.

예측 분석을 위해서는 먼저 무엇을 예측하려고 하는지 고르고 무엇을 얻고자 하는지 목표를 정확히 세워야 한다.

그 다음 주어진 데이터를 이용하여 다양한 방법으로 예측 모델을 학습시킨다.
가장 인상적으로 보았던 모델 학습 방법은 서로 각기 다른 모델을 사용하여 앙상블 모델을 만드는 부분이였다.

서로의 부족한 부분을 보완해주는 부분에서 사람들 더 나은 사람이 되기 위해서 서로에 보완이 될 수 있는 사람이 필요하다는 이야기와 일맥상통한 부분이 있어 인상깊었다.

무조건적인 데이터 학습이 과연 좋은걸까?
정답을 지향하는 데이터 학습은 오히려 데이터에 편향적인 과적합(overfitting)이 될 수 있다.

과적합을 예방하기 위해서 학습 데이터와 테스트 데이터를 랜덤하게 나누어서 모델의 정합성을 확인 해 보는 등의 작업이 필요하다.

그리고 적합하지 않은 학습 방법은 방법과 데이터를 바꾸어서 다양하게 학습을 시켜야한다.
힘든과정을 통해서 추출한 데이터에서 금을 찾아내는 것은 모델을 만드는 것 이상으로 힘들다.

그 이유를 예를들어 확인해보자.

데이터 분석을 통해
아이스크림 판매량이 늘었을 때, 상어에 물려죽는 사람들이 많다는 결과를 도출했다고 가정하자.

이를 다음과 같이 결론을 도출했다고 새각해보자.
아이스크림을 취식한 사람의 냄새가 상어를 부른다. ->그러므로 아이스크림을 먹고 수영하지 말자

과연 정답일까? 일반적인 사람이라면 정답이 아니라고 바로 생각할 것이다.

그럼 어떻게 생각을 할 수 있을까?
아이스크림 판매량이 많다. -> 날씨가 덥다 -> 수영을 많이한다. -> 상어에 물릴 가능성이 늘어난다.

이렇게 결론을 도출하면 조금더 그럴듯하게 생각할 수 있다.

4차산업 시대가 도래하면서 수백만의 데이터가 초단위로 생성된다. 이를 처리하는 하둡, 스파크와 같은 맵리듀스 기술과 데이터에서 가치를 찾는 통계, 데이터사이언티스트에 대한 관심도 높아지고 있다.

이런 시대에서 다양하게 수집되는 데이터를 단순하게 통계 그래프로만 출력한다면 이는 20세기에 머무르는 프로그램이라는 생각이 든다. 물론 어떤 프로그램이냐에 차이가 있다.

하지만 정말 궁금함이 많고 더 진취적인 사람이라면 과연 이 데이터를 통해 무엇을 할 수 있는지 생각해 볼 수 있어야 한다는 의견이다.

결국
금도 금광의 위치를 볼줄아는 사람이 캐는것이다.
나도 완벽한 사람은 아니지만 금을 이쁘게 포장하는 사람이 아니라 흙속에서 금을 찾을 수 있는 연금술사 같은 개발자가 되기 위해 더욱 더 노력해야겠다.

'Book Review' 카테고리의 다른 글

무라카미 하루키 기사단장 죽이기 2 (0)	2018.08.08
무라카미 하루키의 기사단장 죽이기1 구독 후기 (0)	2018.06.01
유시민의 글쓰기 특강 (0)	2018.05.27
상실의 시대 - 무라카미 하루키 (0)	2018.05.27
10년만에 다시 읽어본 연금술사 (0)	2018.05.27

'Book Review' 카테고리의 다른 글

티스토리툴바