주 메뉴 열기

1년 안에 AI 빅데이터 전문가가 되는 법(책)

1년 안에 AI 빅데이터 전문가가 되는 법(책)
제목 1년 안에 AI 빅데이터 전문가가 되는 법 - 4차 산업혁명 시대의 최고의 직업
원제
저자 서대호
옮긴이
그린이
출판사 반니
출간일 2020.2.25
쪽수 272
ISBN13 9791190467117
ISBN 1190467119
1년 안에 AI 빅데이터 전문가가 되는 법

1 책 소개

AI 관련 교양서

2 책을 읽은 이유

AI 와 빅데이터를 제대로 공부하는 방법을 얻고자 구매했다.

3 기억하고 싶은 글귀

앞에서도 말했지만 AI 빅데이터 전문가가 되기 위해서는 수리 통계학적 지식, 코딩 능력, 경영학적 서술 능력을 두루 겸비해야 한다. 그래서 가장 섹시한 학문이고 전문적인 분야이기도 하다. 여기서 경영학적 서술 능력은 배제하더라도 수리통계학적 내용이 수업에 전혀 없다는 것은 사실 문제가 있다. 그렇다고 학원 입장에서도 수리통계학, 선형대수학을 가르칠 수도 없다. 수업 시간에 절대적으로 부족하고 수강생들의 수준도 천차만별이기 때문이다.

그렇다면 왜 수리통계학적 지식이 중요할까? 실제 실전에서 데이터 분석을 하게 되면 목적에 부합하는 모델을 직접 선택하고 적용해야 한다. 학원에서는 어떤 모델을 쓰라고 직접 알려주지만 실전에서는 알려주는 선생님이 없다. 자신이 해당 데이터와 분석 목적에 가장 부합하는 모델을 선택해야 하는데 이때 수학적﹒통계학적 지식이 있어야 어떤 모델을 선택할지 알 수 있다. 때에 따라서는 모델을 조금 변형하거나 여러 모델을 결합해 분석할 때도 많은데 수학적﹒통계학적 지식이 전혀 없으면 이러한 작업이 이루어질 수 없다.


K-평균 알고리즘(K-means algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다.


나 같은 경우는 내가 관심 있어 하는 분야(텍스트 마이닝, 추천 알고리즘)에 대해서 세부적으로 깊게 파고들어간 해외 원서를 주로 보는 편이다. 우선 내가 연구하고 있는 분야에 대해서 깊이 있게 파고들어가고 하나하나 이해하다 보면 너무나 재미있다. 이러한 책들은 국내 서적 또는 번역서로는 찾아보기 힘들고, 있다 해도 번역된 게 오히려 원어(영어)보다 이해하기 힘들어 그냥 아마존에서 원서로 구매해서 읽는다.

논문은 국내 논문의 경우 <지능정보연구> 저널을 자주 읽는 편이고 해외 논문은 텍스트 마이닝, 추천 알고리즘으로 검색해서 나오는 최신 논문들을 찾아서 읽는다. 우선 <지능정보연구> 저널이 AI 빅데이터 알고리즘에 대해서 전반적으로 많이 다루고 있으며 실제 비즈니스 현장에 적용할 수 있는 사례들을 많이 다루고 있어 쉽고 재밌다. 또한 텍스트 마이닝, 추천 알고리즘에 대한 최신 논문들을 지속적으로 찾아 읽으면서 해당 분야에 대한 깊이를 더욱 증진할 수 있다. 가끔씩 논문을 읽다가 생소한 알고리즘이 나오는데 논문만으로 이해가 안 될 때가 있다. 그때에는 구글링을 통해 개인이 올려놓은 포스팅을 빠르게 읽고 기본 콘셉트만 짚고 넘어간다.

이게 내가 공부하는 방법이다. 하지만 이것이 모든 사람에게 적용되는 방법은 아닐 것이다. 내가 아는 지인은 무크를 애용한다. 코세라를 통해 스탠포드 대학교 강의를 듣는 게 너무나 재미있다고 한다. 나도 시도해봤는데 사실 나는 별 효과를 못 보았다. 영어 듣기가 완벽하지 않아서 알아듣기 힘들었고 강의 시간이 너무 길어서 컴퓨터로 온전히 집중하기 힘들었다. 또한 남들이 하거나 현재 대세가 되는 학문이 나에게 맞는다는 보장도 없다. 컴퓨터 비전 분야가 뜬다고 해서 동영상에서 객체 인식, 이미지 분석에 대해서 공부를 해보았지만 깊이 팔수록 이해 안 가는 게 많았고 나에게는 재미가 없었다.

그냥 내가 편하고 잘하는 것을 좋아하는 방법으로 공부하면 그게 강점이 되는 것이다.


우선 알고리즘 응용을 잘하는 사람을 전문가라고 말할 수 있다. 예를 들어 SVM 함수는 패키지에서 제공해주는 가장 기본적인 파라미터로 실행이 되지만 데이터의 성격과 분석 목적에 따라 파라미터가 사용자를 수정해주어야 할 수도 있다. 또는 단순히 SVM 함수를 갖다 쓰는 게 아니라 알고리즘을 수정 및 변형하기 위해 코드를 직접 짜기도 한다. 이러한 작업이 전문가의 영역이라고 할 수 있다. 이러한 일들을 하기 위해서는 역시 알고리즘 각각에 대한 개념원리와 수학적인 지식이 필요하다.

데이터 전처리 능력 또한 전문가가 갖추어야 할 영역이다. 흔히 데이터 분석에서 데이터 전처리 작업이 전체 작업 시간의 70~80퍼센트에 달한다. 교과서에서 보는 예제 코드는 예쁘게 나와 있지만 현장 데이터들은 너무 뒤죽박죽이다. 시간이 서로 안맞거나 결측치 또는 이상치가 난문하는 경우도 있다. 비정형 데이터는 분석을 위해 정형 또는 수치형 데이터로 바꾸어주어야 한다. 이러한 작업들은 다 숙련된 전문가들이 해주어야 하는 작업들이다.

마지막으로 전문가에 요구되는 가장 중요한 능력 중에 하나가 비즈니스 현장의 문제를 인식하고 데이터가 주어졌을 때 주어진 데이터로 어떻게 비즈니스 문제로 풀 것인가 고민하는 능력이다. 흔히 문제 인식은 데이터 분석의 첫 단추로 불리고 가장 중요한 선행 단계로 분류된다. 이 단계에서 큰 숲을 잘 정리하고 세부적으로 데이터 분석을 실행해나가야 한다. 그렇지 않고 제대로 된 문제 인식 없이 처음부터 이상한 방향으로 분석을 시작하면 아무리 분석을 열심히 해도 실제 비즈니스 현장에는 쓸모가 없다. 예를 들어서 제조업 분야의 AI 빅데이터 분석 프로젝트를 진행한다고 해보자. 제조업 종사자가 아니면 사용하는 용어도 생소하고, 데이터를 이해하기 위해서는 데이터의 흐름 파악이 필요한데 이는 해당 제조업의 공정 흐름이 파악되어야 하는 부분이다. 따라서 우선 해당 비즈니스 도메인에 대해서 빠르게 이해하고 해당 도메인이 처한 문제점 및 목표점을 파악해야 한다. 그런 다음에 주어진 데이터를 이해하고 분석 모델을 세우기 위한 데이터 및 알고리즘을 제시해야 한다. 그다음 단계가 구체적인 코딩, 분석, 결과 해석 단계가 될 것이다.

 
빅데이터 분석 프로세스 모델 개요

빅데이터 공부에 도움이 될 만한 책들

1. <빅데이터 기초: 개념, 동인, 기법>(시그마프레스)
2. <인공지능 시대의 비즈니스 전략>(더퀘스트)

AI 빅데이터 분석의 다양환 활용 사례에 도움이 되는 책들

1. <빅데이터가 만드는 제4차 산업혁명>(북카라반)
2. <빅데이터 비즈니스 이해와 활용>(위즈하임)
3. <빅데이터 분석과 활용>(학지사)


데이터 마이닝에서 주로 배우는 기계학습을 이용한 분류, 회귀, 군집 또는 연관 규칙, 빈발 패턴 분석, 아웃라이어 분석과 같은 것들은 대단히 어려운 수학적인 지식이 필요한 게 아니다. 또한 어차피 프로그래밍 언어에서 라이브러리 함수가 수행해주기 때문에 직접 수학 공식을 풀거나 증명할 필요도 없다. 읽어보고 이해한 다음에 바로 넘어가면 된다. 대부분 이해가 되겠지만 혹여나 몇 가지 이해가 안 되더라도 크게 문제가 없다. 우선은 그냥 넘어가도 된다.


데이터마이닝 학습에 도움이 되는 책들

1. <데이터 마이닝 개념과 기법>(에이콘출판사)
2. <패턴인식>(교보문고)
3. <데이터 마이닝 기법과 응용>(한나래)


구글 학술검색이나 RISS에서 검색을 해본 다음에 읽어도 좋고 관련 저널을 정한 다음에 해당 저널의 논문들을 주기적으로 찾아보고 읽는 것도 좋다. 나는 국내 저널로는 <지능정보연구>, <한국경영과학회지>, <Information Systems Review>를 주로 본다. 해외 저널로는 <IEEE Access>, <IEEE Transactions on Big Data>, <Information Systems Research>를 보고 있다. 관련 저널을 선택할 때 팁을 주자면 정보시스템학 계열의 저널을 선택하는 게 좋다. 수학, 통계학, 컴퓨터공학, 산업공학 계열은 특정 알고리즘을 고안해서 제안하는 논문이 대부분이다. 하지만 상대적으로 정보시스템학 계열 저널의 논문들은 실제 비즈니스 환경에 효과적으로 적용된 사례를 보여주고 해석하려는 특성이 있다. 따라서 각 분석방법론, 알고리즘들의 활용 사례를 이해하기에는 안성맞춤이다.


현재까지 나와 있는 국가 기관, 민간 자격증 중 실력 향상에 도움이 될 수 있는 자격증을 나열해보면 다음과 같다. 한국데이터산업 진흥원에서 시행하는 자격시험 중 '데이터 분석 자격검정', 'SQL 자격검정'이 있고 <한국경제>에서 시행하는 '경영 빅데이터 분석사'가 있다. 또한 한국산업인력공단에서 시행하는 '사회조사 분석사 필기' 시험 정도를 꼽을 수 있다.


수리 통계학을 공부하는 방법


딥러닝이 제대로 구현되기 위해서는 두 가지 요건이 필요하다. 충분히 많은 데이터의 양과 이를 연산할 수 있는 컴퓨터의 연산 능력이다. 과거에는 두 가지 모두 충분히 충족되지 않았기 때문에 딥러닝 구현이 어려웠다. 하지만 최근에는 각종 사물의 센서, 인터넷 플랫폼 등에서 엄청나게 많은 데이터가 쏟아져 나오고 GPU의 발달로 컴퓨터의 연산 능력도 엄청나게 증가했다. 따라서 과거 이론으로만 생각했던 딥러닝을 실제로 구현이 가능하게 된 것이다.


딥러닝에 사람들이 열광하는 이유는 이렇게 정확도 측면에서 성능이 좋기 때문이다. 물론 딥러닝도 단점이 있다.

우선 고성능 장비가 필요하며 학습하는 데에 시간도 비교적 오래 걸린다. 또한 정확도는 잘 나오는데 어떠한 이유로 결과가 나오는지 결과 해석이 어렵다. 흔히 블랙박스 모델이라고도 불리는 이유다. 예를 들어 회귀분석 같은 경우는 변수마다 회귀계수라고 불리는 수치가 있어서 어떠한 변수가 얼마만큼 모델에 유의미한 영향력을 끼치는지 알 수 있다. 즉, 결과에 대한 해석이 가능하다. 하지만 딥러닝은 결과는 잘 나오는데 어떠한 이유로 이러한 결과가 나오는지 알거 어렵다.


딥러닝 공부하기

1. <딥러닝 제대로 시작하기>(제이펍)
2. 모두를 위한 딥러닝(홍콩 과기대 김성훈 교수)
3. <밑바닥부터 시작하는 딥러닝>(한빛미디어)
4. <케라스 창시자에게 배우는 딥러닝>(길벗)


다양한 데이터로 연습하며 실력을 키울 수 있는 방법은 없을까? 바로 캐글(Kaggle) 경연대회가 있다. 캐글은 2010년 설립된 예측 모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결 과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 구글에서 2017년 인수했을 정도로 그 가치를 인정받고 있다.

케글 경영대회는 수시로 열리는데 각 대회마다 새로운 데이터 세트와 문제가 주어진다. 주어지는 데이터 세트는 가상의 데이터 세트가 아니라 실제 비즈니스 환경에서 도출되는 데이터 세트다. 그리고 데이터 세트에 대한 자세한 설명과 문제 설명까지 주어진다. 그 다음에 문제를 푸는 것은 참가자의 몫이다. 처음에는 캐글 'Notebooks' 게시판에서 다른 사람들이 한 것을 보고 힌트를 얻을 수도 있다. 또한 'Discussion' 게시판에서 질의응답을 통해 답답함을 해결할 수도 있다. 즉 혼자서 맨땅에 헤딩하는 것이 아니라 집단 토론과 집단 지성을 통해 본인의 견문을 더욱 넓힐 수 있는 것이다. 게다가 우수한 솔루션을 내놓으면 상금까지 받을 수 있으니 더욱 좋다. 캐글의 플랫폼에는 지금까지 열리고 끝났던 경연대회들이 플랫폼에 계속 적재되어 있다. 따라서 엄청나게 많은 실전 데이터 세트와 술루션들이 그대로 저장되어 있고 원하는 사람은 누구나 이것들을 자유자재로 골라서 연습해볼 수 있다.

즉 의지만 있으면 굳이 회사에 입사하지 않고도 다양한 데이터 세트로 웹상의 수많은 사람들과 협업하면서 연구하고 실력을 키울 수 있는 것이다. 한 가지 아쉬운 점은 주어지는 데이터 세트가 대부분 CSV 형태로 예쁘게 정제되어 있는 경우가 많다는 것이다. 실제 RDB나 No-SQL에서 쿼리를 통해 데이터를 임포트하고 정제하는 과정이 필요한 경우가 많은데 이것까지는 캐글 경진대회에서 기대할 수는 없다.

(중략)

예를 들어 이미지 분류에 대해서 공부해보고 싶다면 검색 창에 'image classification' 이라고 검색하면 된다. 그러면 해당 키워드로 검색된 코멘트, 뎅터 세트, 노트북 파일 등을 한눈에 볼 수 있다. 자신의 프로그래밍 언어(파이썬 또는 R)에 맞는 코드들만 따로 필터링할 수도 있고 데이터 세트 양(medium, large, small)에 따라서도 필터링 할 수 있다.


연구 분야는 몇 개 정도를 선택하는 게 좋을까? 개인적인 생각으로는 주 연구 분야를 한두 개 정하고 부 연구 분야도 한두 개 정하는 것이 좋다. 즉 서너 개 정도가 적당하다...(중략)...이렇게 주 연구 분야 한두 개, 부 연구 분야 한두 개를 선정하는 것이 한 사람의 연구자가 연구할 수 있는 이상적인 개수라고 생각한다. 그리고 실제 많은 연구원, 교수들도 이 정도 개수를 연구 분야로 삼고 있다.


한 가지 세부 연구 분야에 대한 교과서 한 권(유명한 교수가 쓴 책 위주), 코딩 책 한 권(개발자가 쓴 책 위주) 정도면 어느 정도 전문가가 되기 위한 준비가 된 것이다. 대신 책은 내용이 꼼꼼히 들어 있는 자세한 책을 선택하고 내용이 충분히 이해되도록 공부해야 한다. 그다음에 굳이 책을 더 읽고 싶으면 알고리즘 적용 분야에 대해 설명한 경영학적인 책을 몇 권 읽으면 도움이 된다.


논문은 책과 달리 저자들이 새로운 아이디어가 떠오르면 바로 페이퍼로 게재하기 때문에 독자 입장에서는 최신 방법론, 알고리즘을 더욱 빠르게 습득할 수 있다. 반면 책은 연구자가 한 가지 아이디어가 떠오른다고 바로 출간할 수 없다...(중략)...특히 AI 빅데이터 분석 분야는 새로운 방법론, 알고리즘이 매일매일 너무나 많이 나오고 있기 때문에 논문을 항상 가까이 하는 게 필수적이다.

구글 학술검색에 'fake news detection' 이라고 검색하면 꽤 많은 연구 자료들을 볼 수 있다. 제목으로만 검색해도 203건이 나온다. 반면 세계 최고의 온라인 서점이라는 아마존에 'fake news detection'이라고 검색하면 한 권도 나오지 않는다. 책으로 가짜 뉴스 판별에 관한 연구를 공부를 하고 싶어도 자료가 없기 때문에 논문에 의존할 수밖에 없는 것이다.

논문이라는 것이 원래 이전에 있었던 아이디어들을 적층한 다음 그 위에 더 새로운 아이디어를 얹은 것이다. 그래서 항상 논문에는 선행 연구 부분이 있는 것이다. 즉, 무에서 유를 창조하는 것은 없다. 다른 사람들이 쌓아놓은 지식 위에 내가 조금 더 지식을 쌓으면 그것이 논문이고 그것이 새로운 아이디어다. 많이 읽을수록 당신의 전문성이 높아지고 새로운 아이디어가 떠오를 가능성도 높아질 것이다.


메타분석을 한 기존 논문을 읽으면 최근의 연구 동향을 더욱 자세히 빠르게 파악할 수 있다. 메타분석이란 기존 문헌들을 분석한 후 연구 트렌드와 연구가 부족한 부분을 연구하는 방법이다. 따라서 자신이 연구하려는 연구 분야에 대해서 메타분석을 한 논문이 있으면 그야말로 고마운 일이다. 그냥 그 논문 하나만 읽어도 논문 안에 모든 것이 정리되어 있다. 구글 학술검색에서 검색 시에는 'literature review' 라는 키워드를 함께 넣어주자.

(중략)

더 좋은 사실은 대부분의 메타분석을 수행한 논문들이 결론 및 시사점 부분에 그동안 부족했던 연구 부분을 알아서 제시해준다는 것이다.


한국학술지 인용색인 등재지에 도전하라


이렇게 살다가는 행복한 인생을 살 수 없을 것 같다는 위기감이 들었다. 부와 자유를 얻은 사람들에 대한 책을 닥치는 대로 읽었다. 책을 읽을수록 점점 빠져들게 되었다. 특히 <부의 추월차선(토트)이라는 책이 나에게 큰 임팩트를 주었다. 그동안은 높은 연봉을 받는 회사에서 열심히 일하고 절약하고 주식 투자에 성공하면 부자가 되는 줄 알았따.

그런데 이 책은 자기 통제와 자기계발로 단기간에 엄청난 돈을 버는 방법에 대해 설명하고 있었다. 그래서 나는 퇴사를 선택했다. 세 개의 회사를 다니는 동안 나에게 남은 것은 1,000만 원 가량 모은 돈과 피폐해진 정신, 목 디스크, 거칠어진 피부였다. 물론 회사를 다니면서 AI 빅데이터 관련 프로젝트를 통해 조금은 배울 수 있었다. 하지만 회사에서 일하면서 학습을 한다는 건 결국 한계가 있다. 그나마 남는 시간에 열심히 전공 서적과 관련 논문을 혼자서 공부한 덕분에 얻은 게 있었을 뿐이다.

퇴사를 하고 박사 과정을 하면서 삶에 여유를 찾았다...(중략)...회사에 다닐 때는 3년 걸리던 공부가 퇴사하니 3개월이면 충분히 익힐 수 있었다...(중략)...월수입은 회사 다닐 때보다 몇 배 이상은 되며 일하는 시간은 회사 다닐 때의 절반도 안 된다. 정말로 AI 빅데이터 하나로 내 인생이 특별해졌다.


AI 빅데이터에 대해서 어느 정도 공부를 마쳤으면 이제부터는 자신을 브랜딩해야 한다. 즉, 자기 자신을 얼마나 잘 알리느냐에 다라 당신의 가치가 올라갈 수 있다...(중략)... 외부에서 당신의 전문성을 평가해줄 수는 없다. 그렇기 때문에 자기 하기 나름인 것이다. 자기가 스스로를 얼마나 잘 포장하고 알리느냐에 따라 전문가로 인정받을 수도 있고 못 받을 수도 있다.


우선 자신이 대단하다고 생각해야 한다. 만약 스스로에 대해 서 위축되어 있고 별 볼 일 없는 사람이라고 생각하면 어떻게 타인에게 자신 있게 드러낼 수 있단 말인가?

(중략)

자기 자신을 대단하다고 생각해야 한다. 특히 AI 빅데이터 분야에 대해서는 누구보다도 더 대단하다고 생각하라. 자신감을 가질 때 직관과 통찰력이 생기고 창의적﹒분석적인 사고를 함양할 수 있다. AI 빅데이터 분야는 분석 결과를 해석하고 적용하는 데 이러한 직관, 통찰력, 창의력, 분석적인 사고가 필요하다. 수학 문제처럼 한 가지 정답이 있지 않다. 당신이 생각하는 것이 여러 정답 중 한 가지 정답이 된다고 굳게 믹어야 한다.


파이썬을 기준으로 API를 만드는 가장 쉬운 방법은 Flask 라이브러리를 활용하는 것이다. Flask 사용 방법은 굉장히 쉬워서 구글에 검색해 보아도 금방 따라할 수 있다. 조금 더 체계적으로 공부해보고 싶다면 <깔끔한 파이썬 탄탄한 백엔드>(비제이퍼블릭)를 읽으면 된다.


파이썬을 이용해서는 PyQT나 Tkinter 와 같은 라이브러리를 이용해서 C/S 방식의 UI 소프트웨어를 개발할 수 있다. <파이썬으로 배우는 알고리즘 트레이딩>(위키북스)<파이썬 GUI 프로그래밍 쿡북>(에이콘출판)을 읽으면 PyQT나 Tkinter에 대해서 익힐 수 있다.


정부 지원금도 가장 쉽게 얻을 수 있는 분야가 AI 빅데이터다. 자금이 필요하면 조금만 노력해서 정부 지원 사업에 지원하면 된다.

더 이상 현대판 노예로 살지 마라. 당신의 영혼은 주말보다 소중하다. 회사원 인생에서 벗어나 AI 빅데이터 전문가, 사업가, 멘토, 강연가로 살아야 한다. 하루라도 빨리 시작해야 한다. 그렇지 않으면 하루에 여덟 시간 일하다가 사장으로 승진해 하루에 열두시간씩 일하게 될 것이다.


<2017 글로벌 AI 인재 백서>에 따르면 세계적으로 필요한 AI 인력은 100만 명에 달하지만 공급은 30만 명에 불과한 것으로 나타났다. 국내 소프트웨어정책연구소는 2022년까지 5년 동안 국내 AI 소프트웨어 개발 인력이 9,986명 부족하다고 분석하기도 했다. 국내 기준으로 보았을 때 최소 2022년까지는 AI 빅데이터 전문가가 부족하다.


용어설명