AI와 ML을 결정짓는 6가지 트렌드

한빛미디어

2020-12-02

by Roger and Steve

18,332

O’Reilly 사용량 분석은 AI/ML의 지속적인 증가 추세와 기관들이 심화된 툴과 방법들을 실험하고 있다는 조기 조짐을 보여준다.

O’Reilly 온라인 학습은 기술자들이 업무 수행하기 위해 알아야 할 트렌드, 주제 및 문제들을 다루는 정보망이다. 이 정보망을 연간 플랫폼 분석을 위한 데이터 자료로 사용했으며, 이 글에서는 위 정보망에서 머신 러닝(ML) 및 인공 지능(AI)에 관해 가장 많이 사용되고 검색된 주제들을 기반으로 살펴보았다[1].

[1] 이 글은 O’Reilly 온라인 학습에서 최상위 검색어와 조회수 높은 주제들에 대한 익명 정보를 기반으로 한다. 2017년부터 2019년 10월 말까지의 지난 3년간 집계된 총 데이터를 비교했다.

O’Reilly 온라인 학습 플랫폼의 ML과 AI에 관한 데이터 분석은 다음과 같다.

비지도 학습(Unsupervised Learning) 사용량이 2019년에 급증하며 사용량이 172% 증가했다.
딥 러닝(deep learning)은 2019년에 약세를 보이며 전년 대비 10% 감소했지만 여전히 AI/ML 총 사용량의 22 %를 차지했다.
텐서플로(TensorFlow) 역시 2019년에 3% 증가에 그쳤지만 마찬가지로 AI/ML 총 사용량의 22% 점유율을 가져갔다.
파이토치(PyTorch)가 경쟁 후보로 올랐다. 2018년과 2019년 총 사용량 증가율은 세 자릿수를 기록했다.
강화 학습(Reinforcement Learning)은 2019년에 5% 감소했지만 2017년부터 1500% 넘게 치고 올라왔었다.
비지도 학습, 신경망(neural networks), 강화 학습 등의 지속적인 강세는 기관들이 심화된 ML 툴 및 방법으로 실험해보고 있음을 알려준다.

자료1. 2019년에 가장 많이 사용 된 O’Reilly 온라인 학습 플랫폼의 AI/ML 토픽(왼쪽)과 각 토픽의 변화율(오른쪽).

변함없는 ML과 AI의 강세

AI 관련 주제 비율은 2018년 88%, 2019년에는 58% 증가하여(자료 1 참조) 훨씬 더 큰 ML 주제와의 공동점유율을 앞질렀다(2018년 14% 증가, 2019년 5%증가). AI와 ML 주제 총합은 모든 플랫폼 사용량의 5% 가까이 차지했으며 제대로 자리잡았던 “데이터 과학” 주제보다 50% 빠르게 성장했다(자료 2 참조).

데이터 엔지니어링의 플랫폼 상 사용량 점유율은 8%남짓으로 데이터 카테고리 중에서는 여전히 가장 큰 주제이다(그림 2). 그러나 데이터 엔지니어링 점유율은 2019년에 약 8% 감소했으며, 대부분 데이터 관리 토픽에 대한 참여 감소가 요인이었다.

자료 2. 가장 많이 사용되는 O’Reilly 온라인 학습 플랫폼의 심화 데이터 주제들(왼쪽)과 각 주제의 변화율(오른쪽).

성장하는 비지도 학습

비지도 학습 주제에 대한 관심이 크게 증가하여 2018년에는 53%, 2019년에는 172% 사용량이 증가했다[2] (자료 1 참조). 이런 성장의 요인은 무엇일까?

[2] O’Reilly의 비지도 학습에 대한 전반적 사용량 비율이 매년 3배 이상 증가했다. 플랫폼을 전체로 보았을 때는 전체 사용량 중 0.1%미만으로 극히 적은 비율을 차지한다. 딥 러닝과 같은 다른 특정 어플리케이션 비율이 훨씬 더 높다.

먼저, 대부분의 사람들이나 사용 사례를 보았을 때 지도 학습(Supervised Learning)은 ML의 기본적이고 당연한 전략으로 쓰인다. 더 수준 높아진 유저들, 개선된 툴 및 지도 방법으로 쉽게 해결되지 않는 사용 사례들로 인하여 비지도 학습이 늘어나는 걸로 보아 비지도 학습은 별도의 주제으로써 주목해볼만 하다. 유추해보면, 유저는 지도 학습 자체의 기본 토픽보다 특정 지도 학습 방법(예: 선형 회귀[Linear regression] 및 로지스틱 회귀 분석[Logistic regression], 서포트 벡터 머신[SVM, Support Vector Machine])에 더 쉽게 접하게 된다.

반면에 비지도 학습의 이름이나 해당 응용 방법(예: 신경망[Neural Network])이 유저들에게 익숙함에도 불구하고 비지도 학습은 잘 이해되지 않는다.

O'Reilly의 비지도 학습의 증가 추세는 십중팔구 비지도 학습의 용어 자체 뿐만 아니라 사용법, 이점, 요구 사항 등에 대한 생소함 때문일 것이다. 또한 신경망과 딥러닝[3]에서 비지도 학습의 가시적인 성공이 (비지도 학습을 도와주는)오픈 소스 툴, 라이브러리, 튜토리얼 등으로 관심을 끌었을 것이다. 이러한 툴 중 일부(사이킷런[Scikit-learn], 파이토치[PyTorch], 텐서플로[TensorFlow])도 역시 파이썬[Python] 기반이라는 점도 문제가 되지 않는다.

[3] 신경망과 딥 러닝은 비지도 학습에 국한되지 않는다. 그러나 두 가지 주제에 대한 연구는 학습 강화, 이전 학습 등뿐만 아니라 감독되지 않은 학습과의 연관성을 표면화할 가능성이 높다.

심화 기술 사용의 증가(대체적으로는)

신경망과 특히 딥 러닝(둘 다 예전 거다)의 성공은 무시됐거나 폐기된 아이디어의 부활에 박차를 가하는데 도움이 되었다고 한다.

예를 들어 강화 학습은 2019년에 조금 주춤하기 전인(5%감소) 2018년에 기하급수적인 급증(1,612%증가)을 보여주었다.

AI/ML 주제를 잘 살펴보면, 신경망 사용량의 꾸준한 증가 추세(2018년 52%증가, 2019년 17%증가)를 보이는 반면 관련된 딥 러닝 주제는 2019년에 10% 줄었다. 2018년도의 현저한 증가율(52%)을 감안할 때 2019년의 하락은 새로운 트렌드로 해석하기보다 전년 대비 큰 급등의 영향을 받은 것으로 볼 수 있다. 이렇게 서로 연관된 토픽들은 뜬다. 신경망, 딥 러닝, 텐서플로의 총 사용량은 2018년에 24%증가된 후 2019년에 살짝 감소(-3%)되며 전체 AI/ML 카테고리 사용량의 거의 절반(47%)을 차지한다.

“2020 기업의 AI 채택(AI adoption in the enterprise 2020)” 설문 조사에서는 AI를 다루는 기업들 사이에서 가장 인기있는 ML 방법이 딥 러닝이라는 결과가 나왔다. 생산 활용 사례에 AI를 활용한 기업들 사이에서는 딥 러닝이 2위였다[4]. 1%의 플랫폼 사용량과 22%의 총 AI/ML 사용량을 차지하는 딥러닝은 변곡점에 있을 수도 있다. 이제부터는 성장이 더뎌질 수도 있다는 것이다.

[4] “2020 기업의 AI 채택(AI Adoption in the enterprise 2020)”에서 AI를 평가하고 있는 AI 전문가 ⅔와 기업 55%가 딥 러닝을 사용하고 있다는 것을 확인했다.

(거의 모든 분야에) 노 저어 주는 AI/ML

지속적인 성장을 보여주는 또 다른 주제는 자연어 처리(Natural Language Processing, NLP)이다(자료 1 참조). 증가율은 그리 뛰어나지 않지만(2018년 15%증가, 2019년 9%증가) 현재 O’Reilly 총 AI/ML 사용량의 12%를 차지한다. 이는 강화 학습의 5배, 비지도 학습의 6배의 육박하는 사용량이다.

반대로 ML의 일부 방법이나 응용 프로그램에 대한 관심은 점차 시들어가는 것 같다. 예를 들어 챗봇 토픽은 처음 2018년에 17%, 그리고 2019년에는 34%씩 계속해서 줄어든다. 이건 아마 상대적인 공간의 경지에 다다른 것일 수도 있다. 챗봇은 실험용 및 생산용 AI의 첫번째 응용 프로그램이었다. 그렇다고 나름 가끔씩 도움을 주는(또 때로는 소름끼치게 만드는) 고객 상담 챗봇들의 일자리가 위험해졌다는 것은 아니다.

컴퓨터 비전(Computer vision)사용량은 2018년에 3%, 2019년에는 2% 점차 감소했다. 또한 보잘 것 없는 유행처럼 컴퓨터 비전이 빠르게 성장하는 비지도 학습 토픽보다 2배 더 많은 사용량을 차지한다.

파이썬 기반 툴, AI/ML에서 우세

Torch가 사라져가는 불씨라는 위 자료는 다소 오해의 소지가 있다. 유저가 파이썬에서 Torch의 ML 라이브러리를 쓸 수 있게 하는 래퍼(wrapper)인 파이토치(PyTorch)는 사실 지난 몇 년간 사용량 증가율이 100%넘게 기록됐으며 2018년에는 거의 400%, 2019년에는 111% 급증했었다(자료 1 참조). 아무래도 파이토치의 우세는 히트 친 파이썬의 영향이 ML/AI 분야에서 특히 컸을 것이다. 일반 Torch는 핵심 C 라이브러리를 노출하기 위한 용도로 루아(Lua)를 사용하는데 파이토치는 같은 목적으로 (파이썬에 따라) 루아를 쓰지 않는다.

파이썬의 우세를 고려해본다면 떠오르는 파이토치의 인기는 그럴 수 밖에 없다는 걸 알 수 있다.

이건 ML에서 텐서플로의 어마어마한 존재감과 연관지어 볼 수 있다. 2019년 총 사용량의 1%를 차지했으며 이 수치는 ML 사용량의 ⅓, 전체 AI/ML 사용량의 22%이다. 텐서플로는 파이썬 전용 기술이 아니지만(안정적인 C와 파이썬 API를 제공함), 텐서플로 유저는 파이썬이나 파이썬과 뒤섞인 관련 프로젝트, 패턴, 튜토리얼 등의 마스터가 되곤 한다.

[5] 텐서플로는 안정적인 C와 파이썬 API를 지원해준다. 이 프로젝트는 C++, Go, Java, JavaScript 등 다른 언어로 API 수준 액세스를 지원하지만 호환성은 보장하지 않는다.

AI 채택에 대한 최근 설문 조사 결과는 이 트렌드가 핵심이라 말한다. 설문조사에서 텐서플로 역시 ML 기술의 1위였고 파이토치는 4위를 기록했다. 추가된 파이썬 기반 두 가지 툴(사이킷런과 케라스[Keras])도 5위 안에 들어갔다[6]. O’Reilly 온라인 학습 플랫폼 검색 기록과 사용량 연간 분석에 따르면 파이썬 분야 중 가장 빠른 성장을 보여주는 것은 ML이나 AI 관련 개발이다. 앞서 나온 AI/ML관련 개발이나 파이썬 관련 툴의 중요성이 이 사실을 입증해주고 있다.

[6]하지만 O’Reilly 플랫폼 자체에서 사이킷런이나 케라스 모두 영향력 있지 못했다. 이와 반대로 2020년 AI 채택 설문 조사에서는, 2019년과 2020년에 응답자 중 48%이 사이킷런을 사용했으며 2위를 기록했다. 신경망 개발에 쓰이는 파이썬 라이브러리인 케라스는 2020년 설문에 5위로 올랐으며 전체 응답자 중 3분의 1을 뛰어넘었다.

“인공 지능”으로의 전환. 그 안의 속뜻

과연 신경망, 강화 학습, 비지도 학습의 기여도 상승과 모델을 결과물로 만들어내는 관심은 스페이스 프레임 실무자들의 역할이 바뀔 것이라는 전조인 것일까? 실무자들이 점점 더 자신의 작업을 “인공 지능”이라고 일컫는 걸로 보아 그렇다고 생각한다(O’Reilly내 AI 사용량 급증, 늘어나는 정교한 툴 및 이러한 툴들을 생산품으로 만들어내는 경험적인 트렌드들이 AI 설문 조사에서 보았듯 이를 뒷받침해준다.).

추가 코딩 없이 스스로 출력을 학습(learn)하고 수정(modify)하는 소프트웨어 구축과 같은 더욱 구체적인 사례를 담당하는 ML와 함께 AI는 언제나 지능형 시스템 구축의 총칭이었다. 전체적으로 보았을 때, 스페이스(space)에 있는 사람들로 하여금 ML이 그들이 하는 일을 전부 커버해주지 않는다고 생각하게 만드는 걸 설명하기 위한 예시는 다음과 같다.

ML은 신용 평가, 부정행위 감지, 추천 엔진(recommendation engine) 등 작업의 자동화에 널리 사용되는 모델을 생산하는 반면, ML 모델은 라이브러리 또는 서비스에 점점 더 많이 배포되고 유효한 유저, 프로그램 및 서비스에 의해 호출 받을 수 있는 모델 또는 모델 앙상블(ensemble)과 같은 API에 노출됐다.
어느 정도까지는 재사용을 위한 모델을 구축할 수 있다. 예컨대 데이터 프로파일링용 모델로 다양한 비즈니스 쪽 분야에 서포트해주는데에 쓰일 수도 있는 것이다.
강화 학습 및 비지도 학습과 같은 툴이나 기술은 결정 판단력 도움, 인터랙티브 게임(interactive game), 실시간 상품 추천 엔진 및 데이터 복구와 같은 새로운 적용 사례를 가능케한다.
사용법의 초점(으로 설계와 개발 또한)은 특정에서 일반화로 바뀌고 있다. ML 라이브러리와 서비스는 우리(O’Reilly)가 제공하는 소프트웨어 제품이나 이를 소비하는 과정, 그리고 이와 연관지어 유저, 고객, 파트너 등의 경험을 모두 바꾸어 줄 수 있는 잠재력을 가지고 있다.
ML뿐만이 아니다. 기계 지능(machine intelligence)에 대해 생각하고 적용하는 새로운 방식인 AI의 일종이다. 이는 거의 모든 도메인의 소프트웨어 건축, 인프라 및 운영에 적용된다.

따라서 이건 그냥 범용 인공 지능(AGI, Artificial General Intelligence)이 아니다. 바로 문제 해결, 높은 생산성, 가속화된 프로세스, 그리고 많은 경우에 완전히 새로운 제품과 서비스를 제공을 위한 머신 러닝의 어플리케이션으로써의 인공지능인 것이다.

결론

기관들이 분석 기술을 채택함에 따라 그들 자신과 그들의 세계에 대해 새롭게 발견해나가고 있다. 특히 ML 채택은 기관 분야를 막론하고 사람들이 조직이 조직 자체에 대해 무엇을 생각하는 지에 대한 이의를 제기하는 질문을 다방면으로 던지게 만든다.

ML 툴, 기술 및 ML을 사용하는 맥락의 기관들 활용법은 변화할 것이다. 예를 들어 지도 학습 방법은 ‘아는 아는 것(known-known)’을 분류하고 특정 ‘아는 모르는 것(known-unknowns)’에 대해 설명해주는데 유용하다. 하지만 이는 ‘모르는 모르는 것(unknown-unknown)’을 잡아내는 것에는 적합하지 않다. 이 부분은 비지도 학습 방법이 더 좋다. ‘모르는 모르는 것’을 분류, 합성, 이해하는 것(인공 지능의 영역)이 아닌 처음부터 잡아내기 위해서다. 결국 결론은 채택자들이 두 가지 학습을 ML에 잘 합쳐 사용한다는 것이다. 또한 이들은 양쪽(지도/비지도 학습)에 둘 다 적용할 수 있는 심화된 ML방법(예: 딥 러닝)으로 실험(experiment)하게 된다. 실제로 AI 채택 설문 조사에서 ML 입문자들도 거의 ML 고수들처럼 딥 러닝을 사용한 실험(experiment)을 하게 된다는 것을 알게 되었다.

현재 기업들은 ‘알고 있는 unknown’과 ‘모르는 unknown’을 찾아내기 위해 ML을 도입해 성공적으로 사용하고 있다. 기업들은 모델에서의 기업 세계에 대한 발견, 분석 및 이해하는 것을 인스턴스화(instantiating)하고 있다. 또한 일부는 이러한 모델을 자동화, 반(半)지능 상품, 서비스 및 소프트웨어로 통합하기 시작했다. 이 모든 것은 자기 발견에 대한 추진력 있는 논리에 포함된다. 이건 “최소 뭔 지도 모르는 걸 어떻게 알아냅니까?”라는 플라토(Plato)가 2,500년 전에 처음 표현해낸 것의 기반이다. 플라토는 메노(Meno)로 하여금 소크라테스 (Socrates)에게 물어보라고 한다. “찾으려는 대상으로 모르는 것을 대관절 어떻게 만들어 나아갈 것입니까?”

철학적 전통은 이 문제를 역설로 취급한다. 지식의 대상이 어떻게 스스로 보강하고 탈바꿈하는지에 대한 조사로도 볼 수 있다. 우리 자신에 대해 새롭고, 다르며, 때로는 어려운 질문을 하는 법을 배우면서 우리에게 도움이 되는 새로운 지식의 대상을 찾아내는 머신을 ML과 AI를 통해 개발하고있다. 어느 모로 보나 이걸로 성공을 맛 보고 있는 것 같다.

*****

원문 : 6 trends framing the state of AI and ML

번역 : 김정욱

TAG : AI ,ML ,알고리즘 ,머시러닝 ,파이썬 ,파이토치 ,python ,PyTorch ,Torch

이전 글 : 테스트 주도 개발의 이점에 대한 통계와 연구

다음 글 : 어떻게 소프트웨어를 빠르게 개발할 것인가?

최신 콘텐츠

IT/모바일