데이터 분석에 대한 궁금증 여덟 가지

한빛미디어

2019-04-30

by 한빛

25,536

우리는 일상 곳곳에서 데이터 혁명을 접하고 있습니다. 서울시의 올빼미 버스 노선, 인터넷 쇼핑몰의 개인맞춤형 타겟 광고, 공유경제의 상징인 카카오 택시와 타다, 마켓컬리의 샛별배송 등 혁신의 뒤에는 어김없이 데이터 혁명, 즉 데이터 분석이 있습니다.

그에 따라 데이터 분석에 대한 비전공자, 즉 문과생의 관심도 높아지고 있습니다. 앞으로 데이터를 다루지 않는 기업도, 직종도 없기 때문이죠. 수학과 담쌓고 살아온 그들이기에 데이터 분석가, 흔히 말하는 데이터 과학자가 되기 위해서 무엇을 준비해야 하는지, 데이터 분석이 무엇인지 궁금한 점이 참 많다고 합니다. 그래서 IT 비전공자, 문과생들이 많이 궁금해하는 여덟 가지 질문을 『데이터를 부탁해』의 전익진 저자에게 물어봤습니다.

전익진

서울과학기술대학교에서 기술경영 분야의 키워드 분석과 연구개발 사업의 성과평가 모형을 연구해 공학박사 학위를 받았다. 현재 Y사 공급기획부서의 데이터 분석가로 근무 중이다. ‘알기 쉬운 데이터 분석’, ‘변화와 혁신의 새로운 전략-데이터분석’, ‘기업의 지속성장 동력-빅데이터’ 그리고 ‘버려지는 기업 데이터를 가치로 연결하라’ 등의 주제로 많은 강의와 강연을 하고 있다. 데이터 인문학이라는 새로운 개념을 모토로 데이터 분석과 빅데이터 분야의 보편화를 위해 노력 중이다.

Q1 데이터는 컴퓨터 속에만 있나요?

A 대답은 ‘아니요’입니다. IT 공간에서 생산된 것만이 데이터가 아닙니다. 데이터는 우리 주변에 있는 모든 것을 포함하는 광의의 개념입니다. 다만 컴퓨터라는 도구가 데이터를 다루는 데 유용할 뿐인 겁니다. 세상의 모든 정보가 IT 공간으로 모이고 있습니다. 개인의 사생활까지도 분석 대상이 되는 환경이죠. 데이터를 확보하고 정리하고 활용하고 분석하는 공간으로서 컴퓨터는 현존하는 최고의 도구이자 저장공간임은 부인할 수 없습니다.

그러나 컴퓨터 없는 과거에도 데이터는 존재했습니다. 제갈량이 적벽에서 조조의 대군을 물리치는 데 공헌한 동남풍은 제갈량의 주술로 일으킨 게 아닙니다. 날씨 정보를 분석해 알아낸 자연 현상이죠. 우리가 일상에서 의사결정을 위해 고민하고 생각하는 모든 과정이 데이터 분석인 것입니다.

내가 원하는 가치를 제공하는 모든 것이 바로 데이터 저장 공간입니다. 무엇인가 궁금할 때 유용한 지식을 알려주는 인터넷 역시 좋은 정보가 담긴 저장소입니다. 책은 두말하면 잔소리죠. 빅데이터 시대에 우리는 IT 공간에 너무 얽매이고 구속돼 그 속의 정보에만 집중하는 건 아닌가 하는 생각이 듭니다. 데이터 분석의 블루오션은 오히려 IT 공간 이외의 곳에 있지 않을까요?

Q2 데이터 과학자는 어떤 일을 하는 사람인가요?

A 참고로 저는 데이터 과학자가 아닙니다. 학자라는 호칭에서 오는 위화감이 싫고 역량도 안 됩니다. 굳이 데이터와 연결해 필자를 소개한다면 스스로를 ‘데이터 플레이어data player’라고 칭하고 싶습니다. 21세기 가장 섹시한 직업이라는 데이터 과학자가 어떤 사람을 지칭하는지는 솔직히 잘 모르겠습니다.

데이터 과학자가 어떤 사람인지 정확히 잘 모르지만, 이런 질문을 받으면 뛰어난 통계 분석 능력을 기반으로 적절한 알고리즘을 이용해 대용량 데이터를 분석할 능력이 있고, 새로운 가치를 창출하며 이를 유연하게 해석할 수 있는 사람이라고 말해야 할 거 같습니다.

너무 교과서적인 답변이긴 합니다. 그럼 다른 시각에서 바라보기로 합시다. 데이터 과학자의 주된 업무가 데이터 분석이라면 수리 통계는 데이터 과학자에게 절대적으로 중요한 소양입니다. 비판적 사고도 중요할 것입니다. 이 말은 호기심을 포괄하는 의미인데, 매우 중요한 덕목입니다. 결론을 정하고 데이터를 대입하는 것이 아니라 데이터를 보고 유추되는 결론을 상상하는 능력을 말합니다. 이것은 제가 반복적으로 연습하고 훈련하는 주된 역량입니다. 어떤 데이터라도 그것에 활용할 만한 가치를 연결하는 능력은 데이터 분석을 주된 직업으로 하는 사람들에게 큰 도움이 됩니다.

이러한 훈련과 습관은 창의력과도 연결됩니다. 데이터로 보는 세상은 쳇바퀴처럼 돌고 도는 현실과 많이 다릅니다. 어떤 관점으로 현상을 보느냐에 따라 데이터는 완전히 새로운 방향을 제시할 수 있습니다. 매번 반복적인 업무와 생활 습관을 가진 사람은 그것이 당연하다고 생각하지만, 데이터로 보면 이런 생각과 흐름이 잘못됐다는 것을 알 수 있습니다.

데이터를 다루는 주변 사람들을 보면 대체로 개혁적인 성향을 가진 사람이 많습니다. 모두는 아니지만 조직의 혁신과 관련된 업무에 투입되는 경우가 많은 이유일 것이다. 의식적으로 다르게 보는 시각을 가져봅시다. 남들과 시각이 똑같다면 데이터 과학자라는 가장 섹시한 직업을 갖기에는 부족하지 않을까요? 데이터 과학자가 되고자 한다면 많은 분야의 서적을 읽고 생각의 폭과 시야를 충분히 넓히는 훈련을 게을리해서는 안 됩니다.

Q3 데이터 분석가나 데이터 과학자가 되려면 무엇을 공부해야 하나요?

A 최근 가장 많이 듣는 질문입니다. 데이터 분석을 하는데 가장 중요한 것은 수학도 통계 기법도 알고리즘도 아닌 비즈니스에 대한 이해입니다. 유통, 제조, 마케팅, 서비스 등 산업 분야의 형태를 알아야 하고, 그 회사만이 가진 특성도 이해해야 합니다. 이런 비즈니스 특성을 충분히 이해해야 분석 내용이 설득력을 얻게 됩니다.

비즈니스 이해는 데이터 분석 업무에만 필요한 것은 아닙니다. 외부 업체에 어떤 문제 해결을 요청했지만, 결과가 도무지 이해되지 않고 무용지물인 경우가 더러 있습니다. 그 이유가 무엇일까요? 아마 외부업체가 고객의 비즈니스를 충분히 이해하지 못했기 때문일 것입니다.

비즈니스를 이해하는 데는 시간이 걸릴 수밖에 없습니다. 이 시간을 줄이고 싶다면 여러 비즈니스 환경에 대해 사전에 공부하면 것이 도움이 됩니다. 유통, 제조, 마케팅, 서비스 등 우리 사회에 보편적인 산업 형태를 공부하고 관련 서적을 두루 읽는 것이 좋습니다. 이런 관점에서 독서는 정말 중요한 덕목입니다.

기초 지식을 탄탄히 하는 노력도 필요합니다. 학창 시절에 수학을 못했다고 걱정할 건 없습니다. 필자 역시 수학 성적이 그리 좋지는 않았습니다. 물론 수학은 통계를 넘어 데이터 분석의 기본이며 알고리즘을 이해하는 데 필수 불가결한 요소입니다. 새로운 통계 기법이나 데이터 분석 기법을 개발하고자 한다면 아마도 엄청난 양의 수학을 다시 공부해야 할 것입니다. 하지만 세상에는 이미 수많은 분석 기법이 공개돼 있습니다. 이 기법들을 다 사용하기도 힘들뿐더러 한 가지라도 완벽하게 구사할 줄 안다면 그것으로도 충분할 것입니다.

여기서 말하는 기초는 정말 기본적인 것을 말합니다. 먼저 평균(편차, 확률)을 완벽히 이해해야 합니다. 평균이 없는 데이터 분석은 없기 때문입니다. 모든 출발은 평균에서 시작한다고 해도 과언이 아닙니다. 앞서 데이터 분석은 확률이라고 했습니다. 확률의 이해도 필수입니다. 수학적으로 접근하지 않아도 괜찮습니다. 평균과 확률에 대한 책은 많습니다. 책이 아니더라도 평균과 확률 관련 글을 검색해 읽고 이해해 봅시다. 알고리즘 공부도 소홀히 해서는 안 되겠죠.

최근 데이터 분석 분야에서 컴퓨터 전공자가 우대받는 것은 알고리즘에 대한 이해가 빠르기 때문입니다. 알고리즘에 강하면 문제 해결 능력도 함께 상승합니다. 틈틈이 챙기기 바랍니다.

데이터 분석을 공부하는 학과는 많습니다. 통계학과를 비롯해 컴퓨터공학, 경영, 경제, 산업공학, 수학, 문헌 정보 등 많은 학과에서 데이터 분석을 연구하고 공부합니다. 단지 학과마다 접근 방식이 조금 다를 뿐이죠.

SQL이 뭐죠? R은 어떻게 써요? 알고리즘을 잘못 짜요! 인공신경망 분석을 해본 적이 없어요.

그렇더라도 걱정하지 마세요. 이건 경험이고 충분한 학습과 반복으로 극복할 수 있습니다. 이보다 더 중요한 것은 어떤 경우에 어떤 기법을 써야 하는지를 아는 것입니다. 그전에 비즈니스 환경과 데이터 분석의 기본 원리를 이해하는 게 필요합니다.

마지막으로 한 가지만 더 당부하면, 사람들과의 원만한 커뮤니케이션 능력을 키우세요. 데이터는 때로 누군가에게 원치 않는 결과를 알려줍니다. 데이터가 누군가에게는 꿀처럼 달콤하지만 다른 누군가에게는 독이 될 수 있습니다. 현업에서는 이를 극복하는 능력이 어쩌면 가장 중요하다고 할 수 있습니다. 이는 저의 경험에서 나온 말입니다.

Q4 회사에 빅데이터 담당자를 채용하려고 합니다만?

A 다음은 얼마전 만난 대학 선배와의 대화입니다.

“이번에 회사에서 빅데이터 담당자를 채용한다고 하는데 좋은 사람 있으면 추천 좀 해봐.”

“내가 하는 데이터 분석도 빅데이터의 한 분야인데, 빅데이터 담당자라면 어떤 분야를 말하는 거야?”

“분야? 너처럼 데이터 분석하는 사람 찾는 거지 뭐.”

고민 끝에 필자는 선배에게 이렇게 말했다.

“선배, 그냥 시대 흐름이 그러니까 구색 맞추기로 채용하는거면 포기해. 분석 잘하는 사람만 뽑지 마. 그건 아니야. 자고로 빅데이터 전문가라면 자원 관리, 기술 관리, 분석 능력 등이 두루 겸비돼야 하는데 그런 사람은 많지 않아.”

단편적인 대화지만, 이 이야기는 각 기업의 인사 담당자가 깊이 생각해 볼 문제입니다. 빅데이터 분야는 기술과 자원, 분석 인력이 적절한 조화를 이루어야 그 힘을 충분히 발휘할 수 있습니다. 그래도 굳이 담당자를 한 사람 채용해야 한다면 비즈니스 이해력이 뛰어나고 분석 결과를 올바르게 해석할 수 있는 해박한 지식이 있는 사람을 뽑는 것이 낫습니다. 그게 아니라면 그냥 훌륭한 업체 찾아서 좋은 파트너십을 유지하기 바랍니다. 단, 그들이 가진 분석 기술만큼 비즈니스에 대한 이해도 높아야겠죠.

빅데이터를 활용한 기업의 가치와 미래에 대비하기를 원한다면 충분한 투자가 뒷받침돼야 합니다. 빅데이터를 통한 기업의 가치 상승은 투자입니다. 단순히 인력만 투입한다고 기업 가치가 상승한다면 정체를 겪는 회사는 없을 것입니다. 미국의 전기 자동차 회사 테슬라의 자산가치가 GM을 넘었다는 보도(2017년 4월)가 있었습니다. GM보다 자동차를 많이 팔지 못하는 테슬라가 어떻게 GM보다 자산 가치가 더 높은 것일까요? 구글은 왜 그토록 빅데이터에 많은 투자를 하는 것일까요? 미래는 언제나 준비된 자에게 기회를 줌을 기억해야 할 것입니다.

Q5 데이터 분석의 목적은 무엇인가요?

A 요즘의 흐름을 볼 때 데이터 분석의 가장 큰 목적은 예측이 아닐까 생각합니다. 최근 데이터 분석에서 가장 많은 관심을 받고 있는 분야는 누가 뭐래도 인공지능입니다. 인공지능을 간단하게 표현하면 스스로 판단하고 결정해서 행동하는 것을 말합니다. 이미 내가 할 일을 알고 행동한다는 것은 선행 예측이 이루어진다는 의미입니다. 그러므로 ‘데이터 분석의 최종 목적은 예측에 있다’고도 할 수 있습니다. 하물며 우리가 점을 보는 것은 미래를 보기 위함이지 내 삶을 돌아보고자 하는 건 아니지 않은가요?

그런데 최종 목표가 예측이라 하더라도 그 과정은 몇 개의 축으로 구분됩니다. 그래서 제가 생각하는 데이터 분석의 목적은 예측을 포함해 크게 네 가지입니다. 첫 번째는 군집clustering입니다. 이것은 데이터 분석의 가장 기본입니다. 데이터에는 그들만의 속성이 있습니다. 군집은 이러한 속성을 비교해 유사한 속성으로 묶어주는 행위를 의미합니다.

두 번째는 분류classification다. 군집과 분류는 유사한 것 같지만 명확하게 다른 작업입니다. 분류는 데이터의 관계를 파악해 이미 정해진 범주로 배정하는 작업입니다. 필자가 군집과 분류를 중요하게 생각하는 이유는 실무에서 공략 대상, 즉 분석 대상을 명확히 하는 데 군집과 분류가 매우 유용하기 때문입니다.

세 번째는 규칙patten을 찾는 것입니다. 규칙이란 데이터의 속성, 흐름, 배경, 유사성 등 여러 항목의 관계를 파악하는 작업을 의미합니다. 규칙을 찾으면 바둑처럼 다음 수가 보이죠.

마지막 네 번째는 예상하겠지만 예측prediction입니다. 앞서 세 가지 목적을 혼합해 새로운 상황을 설계하고 해당 상황에 유연하게 대처할 수 있는 신의 한수를 찾는 일입니다.

Q6 통계 분석, 데이터 마이닝, 빅데이터 분석은 서로 어떻게 다른 거죠?

A 일단 데이터 마이닝을 데이터 분석이라고 해야 하는지 의문입니다. 데이터 마이닝은 데이터를 추출, 가공하는 데이터 분석을 위한 전처리 과정으로 분석 대상을 찾는 과정인 반면, 데이터 분석은 분석 대상이 명확하기 때문입니다. 이는 어떤 연구나 이론을 바탕으로 하는 이야기가 아닌 저의 개인적인 생각입니다. 따라서 데이터 마이닝은 차지하고 통계 분석과 빅데이터 분석의 차이점에 대한 제 생각을 말하겠습니다.

가장 먼저 분석 대상에 차이가 있습니다. 단순히 정형과 비정형을 구분하는 문제가 아닙니다. 현재의 데이터 분석 대상은 규격에 맞춰 정리된 데이터만이 아닙니다. 이는 곧바로 대상 간의 상관관계나 연관성의 차이로 이어집니다. 통계 분석에서는 대상이나 표본자료 간의 관계가 성립되거나 유사한 대상을 기준으로 하지만, 데이터 분석은 전혀 어울릴 것 같지 않는 대상 간에도 관계를 도출하고 연관성을 찾을 수 있습니다. 마트에서 맥주의 소비량이 기저귀 소비량과 양의 상관관계가 있는 줄 누가 알았겠습니까?

다음으로 복잡성의 차이를 들 수 있습니다. 통계 분석은 정교한 분석 기법을 실행해 그 가치의 정확성을 높이는 데 치중하지만, 빅데이터 분석은 정확성은 물론 다양한 기법을 결합해 전혀 예상치 못한 결과를 도출하는 것에도 큰 의미를 부여합니다.

또 하나의 차이는 융합적convergence 성격입니다. 빅데이터 분석은 단순히 통계적 분석 기법만을 요구하지 않습니다. 다양한 분야의 지식과 컴퓨팅 기술, 여기에 적절한 알고리즘 능력과 인문학적 이해 같은 다양한 학문과 기술을 요구하죠.

마지막으로 데이터 분석은 판단 후 의사결정이 이루어지면 곧바로 실행에 옮겨진다는 점입니다. 대표적인 게 인공지능입니다. 이전의 통계 분석을 중심으로 한 데이터 분석은 분석 결과를 해석하고 도출된 가치를 판단해 의사결정을 수행하는 반면, 빅데이터 시대의 데이터 분석은 분석 자체가 곧 의사결정이 되고 실행됩니다.

Q7 머신러닝과 딥러닝은 무엇인가요?

A 머신러닝machine learning과 딥러닝deep learning은 모두 데이터를 활용해 인간의 지시 없이 작동하는 알고리즘이라 볼 수 있습니다. 데이터를 재료로 활용하지만 진행 과정은 컴퓨터과학에 더 가깝습니다.

이 알고리즘은 새로운 신호 (데이터)가 들어오면 자동으로 계산하고 판단해 실행에 옮깁니다. 알아서 판단하고 알아서 결정하는 알고리즘. 이는 너무 간단하니 차이점을 들어 좀 더 자세히 설명해 보겠습니다.

어린 아이의 판단 방식을 생각해 봅시다. 필자의 관점에서 무언가를 판단해야 하는 대상이 입력되었을 때 아이의 판단 방식은 크게 두 가지로 나뉩니다. 입력된 대상을 이전에 경험한 적이 있는가와 없는가입니다. 첫 번째는 경험이 없는 경우입니다. 나이가 어릴수록 경험이 부족합니다. 그래서 아이는 질문을 수없이 던집니다. 입력된 대상에 대해 판단할 만한 경험이 없으면 아이는 질문을 통해 답을 찾거나 새로운 경험으로 받아들이고 문제를 해결하죠. 이것이 일반적인 데이터 분석입니다. 즉, 전혀 경험하지 않았던 질문의 해답을 찾는 경우입니다.

그러면 경험이 있는 경우는 어떨까요? 아이는 단순합니다. 입력된 대상이 과거 경험을 바탕으로 충분히 해석 가능하면 그 경험에서 나왔던 결과를 기반으로 판단을 합니다. 이때 경험은 깊이의 차이를 보입니다. 단 한 번의 경험한 것과 오랜 경험에 의한 판단에는 분명 차이가 있습니다. 또한 경험이라는 ‘스냅샷(snapshot)’은 단편적으로 이루어집니다. 반복된 경험이 누적될수록 판단은 빨라지며, 다양한 경험을 할수록 판단할 수 있는 가치가 많아집니다. 이것이 머신러닝입니다. 알고리즘을 통해 이후 발생되는 사건과 신호를 인간의 개입 없이 스스로 판단해 결론을 도출하죠.

아이는 성장하며 반복적으로 경험하며 다양한 종류의 경험이 누적됩니다. 아이가 성장해 어른이 되면 판단할 수 있는 가치가 그만큼 늘어납니다. 머신러닝 역시 데이터가 누적되고 다양한 종류의 신호를 통해 반복적인 결과를 도출할 수 있다면 그 효용성은 올라갈 것입니다. 이것은 빅데이터의 힘입니다.

하지만 어른이 된다고 모든 것을 다 경험하는 것은 아닙니다. 사람에 따라, 환경에 따라 경험은 다양하죠. 경험하지 못한 것을 판단해 결론을 찾아야 하는 순간도 있습니다. 옳고 그름을 떠나서 반드시 결론을 도출해야 하는데 이것이 딥러닝이라고 할 수 있습니다. 알고리즘이 사람이라면 이 순간 어떤 결론을 도출할까요? 딥러닝은 이 해답을 사람의 개입 없이 오로지 방대한 양의 데이터를 통한 학습으로 찾아냅니다.

손을 댄 적이 있어서 불에 손을 대지 않는 건 ‘불이 뜨겁다‘라는 사실적 경험에 나오는 것입니다. 이것이 머신러닝이죠. ‘저붉게 타오르는 것에 사람들이 손을 대지 않는 것을 보니 아무래도 좋지 않는 물질인 것 같아. 난 손을 대지 않겠어.’ 이것은 딥러닝인 것입니다.

Q8 데이터 분석 분야의 전망은 어떤가요?

A 기술 기반 산업의 미래는 불투명하다고 생각합니다. 이렇게 말하는 이유는 해당 분야를 무시해서가 아닙니다. 하루가 다르게 변하는 세상을 보며 느끼는 단순한 감정일 뿐입니다. 모두 빅데이터를 이야기하지만 내일 일어나면 빅데이터를 뛰어넘는 새로운 기술 용어가 등장할지 모릅니다.

빅데이터라는 용어에 대한 무한 신뢰는 없지만, 우리가 삶을 살아가는 한 데이터 분석이라는 용어는 사라지지 않을 것입니다.

우리가 어떤 관점에서 데이터를 바라보느냐의 차이만 있을 뿐이죠. 분명한 것은 우리가 다루어야 할 데이터가 늘면 늘었지 분명 줄어들지 않을 거라는 점입니다. 개인의 삶도 분석 대상이 되는 세상에서 세상 모든 것이 데이터듯 이 세상의 모든 것은 분석 대상이 될 것은 자명합니다.

최신 트렌드를 따라 머신러닝이나 딥러닝 같은 복잡한 분석 기법에 관심을 두기보다는 먼저 데이터와 친숙해지기를 당부하고 싶습니다. 저처럼 데이터와 함께 살기를 희망하는 분들에게 당부하고 싶은 말은 트렌드에 따라 움직이지 말라는 것입니다. 너무 부정적인가요? 세상은 빠르게 변합니다. 하지만 데이터와 데이터 분석은 변함없이 필요할 것입니다. 결론적으로 데이터 분석 분야의 전망은 ‘매우 맑음’입니다.


데이터를 부탁해 : 세상을 움직이는 데이터의 힘 자세히 보러가기	[수요밋업] 수요일은 한빛미디어에 간다! - 5월 22일(水)

TAG :

이전 글 : [Interview] 내가 틀릴 수 있다는 것을, 다른 사람의 의견이 맞을 수 있다는 것을

다음 글 : 자연어 처리 딥러닝의 잔뼈가 굵은 남자 - 김기현

최신 콘텐츠

컬럼/인터뷰

데이터 분석에 대한 궁금증 여덟 가지