0. 데이터 분석? 통계학?
여러분은 데이터 분석을 하는데 제일 처음 배워야 하는 것이 무엇이라 생각하시나요? 사실 데이터 분석은 통계학 부터, 컴퓨터 프로그래밍, 데이터베이스 등 배워야 할 것이 너무나 많습니다. "선생님, 저는 데이터 분석 과학자가 되고 싶어요뭐 부터 공부할까요?" 이런 질문을 받으면, "음~" 하고 뜸을 드리게 됩니다.
1. 왜? 통계학을 공부해야하죠? 프로그래밍은요?
통계학은 데이터 분석에서 운동에 비유한다면 기초체력에 해당합니다. 모든 운동에서 기초체력 중요하듯 데이터 분석에서는 통계학이 매우 중요합니다. 최근에 데이터분석 알고리즘에 관해 각종 매체에서 접할 기회가 많다보니, 실무에서 간단하게 알고리즘을 학습하고, 활용하는 경우가 많습니다. 하지만, 왜 이렇게 되는지, 정말 이 결과가 바른지 검정하지 못한다면, 실무에 이를 활용하는 건 너무 위험하지 않을까요? 결국 기본으로 돌아가통계학을 다시금 살피게 됩니다.
그렇다면 프로그래밍?
여러분들은 프로그래밍이라고 하면 어떤 단어가 떠오르게 되나요? 저는 로봇, 자동, 오토메이션이라는 단어가 자주 유추됩니다. 실무에선 프로그래밍을 이런 분야에 사용하는 경유가 많습니다. 내가 해야하는일을 다른 누군가가 도와 주어야하는데, 기계 즉 컴퓨터가 도와준다면, 정말 멋진일이겠죠? 데이터분석도 마찬가지로, 데이터 분석의 전과정, 수집, 가공, 분석, 검정, 결과 도출 등의 일련의 과정을 프로그래밍으로 통해 자동화한다면, 정말빠른시간에 다양한 분석을 수행하 수 있을 것입니다.
2. 파이썬으로 배우는 통계학 교과서, 이 책이 특징
이 책을 소개하기 위해, 긴 도입을 가졌습니다. 이 책은 통계학을 공부함과 동시에 프로그램으로 이를 실제 구현하고, 활용할 수 있도록 여러분들을 인도합니다. 물론 통계학을 공부하는 것만으로도 벅찰 수 있지만, 조금의 인내심 가지고 그 과정을 프로그램으로 만들면, 언제든지 손쉽게 다시 쓸 자동화 도구를 가질 수 있습니다. 그러면 자신도 모르게 능력이 변한 것을 느낄 수 있습니다.
이 책의 특징은 통계학의 기본 개념으로 파이썬을 가지고 구현하는 것입니다. 기초 통계학을 시작으로 파이썬과 주피터 노트북, 파이썬을 이용한 데이터 분석, 통계모델 기본, 정규선형 모델, 일반선형 모델, 통계학과 머신러닝까지 폭 넓은 내용을 제공합니다.
3. 장별 내용 소개
파이썬과 주피터 노트북은 30page에 걸처 설명하고 있습니다. 이 책을 소화하는데 큰 문제는 없을 정도로 정보를 제공하지만, 아무래도 프로그래밍을 처음 해보시는 분들이라면 기본적인 프로그래밍에 대한 입문 공부는 병행하는 것이 학습에 도움이 되실 것 같습니다.
1장에서는 통계 기본을 3장에서는 다변량 분석에 대해서 학습이 진행됩니다. 데이터 분석에 대해서 데이터의 특성을 파악할 수 있도록 내용을 담고 있습니다. 특히 다양한 시각화와 예시를 통해서 좀더 쉽게 이해할 수 있도록 내용을 구성했는데, 이 책의 강점이기도 합니다. 프로그래밍에 대한 결과 및 분석사항을 간단한 시각화를 통해서 계속적으로 학습시켜, 보통 통계를 접하지 않은 일반인들?(아무리 그래도 조금은 관심이 있는 그리고, 파이썬으로 데이터 공부를 조금이라도 한~ 정도입니다.)이 쉽게 이해할 수 있도록 코드와 예시를 제공합니다.
이 부분은 책에서는 무려 총 110페이지를 할애하여 설명하고 있습니다. 매우 중점을 둔 부분이라고 할 수 있겠습니니다.
4장에서는 통계모델의 기본으로 다룹니다. 각종 모델의 소개(수리모델, 확률모델, 통계모델) 부터, 통계모델을 만드는 방법, 그리고, 데이터의 표현과 모델의 명칭등을 이야기 합니다. 이장은 데이터 분석에서 다루는 용어들의 이해도를 높이기 위한 장으로, 각 내용에서는 아 ~ 이런 내용을 가리키는 용어였구나~ 하도록 학생들에게는 매우 기본이지만 반드시 숙지가 되어야하는 내용을 정리하였습니다. 저의 경우엔 이 부분을 강의나, 혹은 책을 기술할 때 주석이나 보조내용으로 학생들에 보여주면 참 좋겠다는 생각이 들었습니다.
이 부분은 조금은 쉬어가는 부분으로 총 34페이지로 구성되어 있습니다.
5장에서는 정규선형모델을 다룹니다. 이 부분에서 초반에 참 인상깊었던 것은 요약함수에 대한 여러가지 파라미터 설명을 잘 눈에 들어오도록 설명한 것입니다. 이 부분들은 사실 중요하나, 언급을 간단하게 하고 넘어가는 것으로 상세하게 모든것으로 이해하고 있기 보단, 필요한 것만을 공부하고, 취하게 됩니다. 그렇지만, 이 책에서는 이 부분을 하나하나 짚으면서 설명해서, 공부를 하는 학생들이 좀더 기초가 튼튼하학습할 수 있도록 내용을 제공합니다. 일부 파라미터의 특성은 자세하게 기록하고 있어, 실제 분석에 많은 섬세한 테크닉을 익힐 수 있도록 제공합니다. 저도 이 책을 보고 많은 도움 받았네용~
이 부분은 총 49페이지를 통해 설명을 하였으며, 정규선형 모델을 설명하는 부분에서, 상당히 도움이 되었습니다.
6장 일반선형 모델의 경우 정규분포 이외의 확률분포를 사용하는 방법에 다루며, 이항분포, 푸아송분포, 지수형 분포등을 학습합니다. 이 부분에서도 정규선형모델과 동일하게 로지스틱, 푸아송 회귀 회귀분석에서 자세한 Summary 를 제공, 설명을 통해 이해를 돕습니다. 이 책은 사실 통계학을 시작하는 입문자들을 중심으로 다뤄지는 사항이라, 여기 부터는 개론 및 간단한 이해를 중심으로 합니다. 사실 6장의 경우는 실제 더 많은 내용의 지식과 경험 기반지식을 가지고 있어야 실제 활용을 할 수 있습니다. 이 장과 7장의 경우 이런 부분에서, 앞으로 이 책 이후에 학습할 내용에 대한 가이드를 중심으로 하고 있어서, 여기에 다루는 내용외에 고급과정에서 배우는 내용들을 좀더 다루는 것이 필요하다고 생각이 듭니다.
맺음말. 파이썬 파이썬 하는데 실제 라이브러리는 어떤걸 쓴다는거야?
마지막으로 이 부분을 지적하면서 끝내야 겠습니다. 사실 파이썬은 매우 다양한 라이브러리가 제공됩니다. 문제는 어떤것들이 검증되고, 데이터 분석을 실무로 하시는 분들이 이용하냐죠. 이 책은 통계학을 파이썬을 통해 하나하나 그 내용을 설명합니다. 하지만 여기서 하나 알아할 것은 이 책이 다루는 라이브러리는 검증된 것이고, 보편적으로 이용되는 것이라는 점입니다. 실무를 하다보면, 이런 부분을 미리 검토해야하는 점이 발생합니다. 여러분들은 이 책을 통해 통계학도 배우고 파이썬에서 다루는 검증된 통계라이브러리도 익히는 일석이조? 큰 특징이라고 할 수 있겠습니다.