1년 안에 AI 빅데이터 전문가가 되는 법(책)

1년 안에 AI 빅데이터 전문가가 되는 법

앞에서도 말했지만 AI 빅데이터 전문가가 되기 위해서는 수리 통계학적 지식, 코딩 능력, 경영학적 서술 능력을 두루 겸비해야 한다. 그래서 가장 섹시한 학문이고 전문적인 분야이기도 하다. 여기서 경영학적 서술 능력은 배제하더라도 수리통계학적 내용이 수업에 전혀 없다는 것은 사실 문제가 있다. 그렇다고 학원 입장에서도 수리통계학, 선형대수학을 가르칠 수도 없다. 수업 시간에 절대적으로 부족하고 수강생들의 수준도 천차만별이기 때문이다.

그렇다면 왜 수리통계학적 지식이 중요할까? 실제 실전에서 데이터 분석을 하게 되면 목적에 부합하는 모델을 직접 선택하고 적용해야 한다. 학원에서는 어떤 모델을 쓰라고 직접 알려주지만 실전에서는 알려주는 선생님이 없다. 자신이 해당 데이터와 분석 목적에 가장 부합하는 모델을 선택해야 하는데 이때 수학적﹒통계학적 지식이 있어야 어떤 모델을 선택할지 알 수 있다. 때에 따라서는 모델을 조금 변형하거나 여러 모델을 결합해 분석할 때도 많은데 수학적﹒통계학적 지식이 전혀 없으면 이러한 작업이 이루어질 수 없다.

K-평균 알고리즘(K-means algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다.

나 같은 경우는 내가 관심 있어 하는 분야(텍스트 마이닝, 추천 알고리즘)에 대해서 세부적으로 깊게 파고들어간 해외 원서를 주로 보는 편이다. 우선 내가 연구하고 있는 분야에 대해서 깊이 있게 파고들어가고 하나하나 이해하다 보면 너무나 재미있다. 이러한 책들은 국내 서적 또는 번역서로는 찾아보기 힘들고, 있다 해도 번역된 게 오히려 원어(영어)보다 이해하기 힘들어 그냥 아마존에서 원서로 구매해서 읽는다.

논문은 국내 논문의 경우 <지능정보연구> 저널을 자주 읽는 편이고 해외 논문은 텍스트 마이닝, 추천 알고리즘으로 검색해서 나오는 최신 논문들을 찾아서 읽는다. 우선 <지능정보연구> 저널이 AI 빅데이터 알고리즘에 대해서 전반적으로 많이 다루고 있으며 실제 비즈니스 현장에 적용할 수 있는 사례들을 많이 다루고 있어 쉽고 재밌다. 또한 텍스트 마이닝, 추천 알고리즘에 대한 최신 논문들을 지속적으로 찾아 읽으면서 해당 분야에 대한 깊이를 더욱 증진할 수 있다. 가끔씩 논문을 읽다가 생소한 알고리즘이 나오는데 논문만으로 이해가 안 될 때가 있다. 그때에는 구글링을 통해 개인이 올려놓은 포스팅을 빠르게 읽고 기본 콘셉트만 짚고 넘어간다.

이게 내가 공부하는 방법이다. 하지만 이것이 모든 사람에게 적용되는 방법은 아닐 것이다. 내가 아는 지인은 무크를 애용한다. 코세라를 통해 스탠포드 대학교 강의를 듣는 게 너무나 재미있다고 한다. 나도 시도해봤는데 사실 나는 별 효과를 못 보았다. 영어 듣기가 완벽하지 않아서 알아듣기 힘들었고 강의 시간이 너무 길어서 컴퓨터로 온전히 집중하기 힘들었다. 또한 남들이 하거나 현재 대세가 되는 학문이 나에게 맞는다는 보장도 없다. 컴퓨터 비전 분야가 뜬다고 해서 동영상에서 객체 인식, 이미지 분석에 대해서 공부를 해보았지만 깊이 팔수록 이해 안 가는 게 많았고 나에게는 재미가 없었다.

그냥 내가 편하고 잘하는 것을 좋아하는 방법으로 공부하면 그게 강점이 되는 것이다.

우선 알고리즘 응용을 잘하는 사람을 전문가라고 말할 수 있다. 예를 들어 SVM 함수는 패키지에서 제공해주는 가장 기본적인 파라미터로 실행이 되지만 데이터의 성격과 분석 목적에 따라 파라미터가 사용자를 수정해주어야 할 수도 있다. 또는 단순히 SVM 함수를 갖다 쓰는 게 아니라 알고리즘을 수정 및 변형하기 위해 코드를 직접 짜기도 한다. 이러한 작업이 전문가의 영역이라고 할 수 있다. 이러한 일들을 하기 위해서는 역시 알고리즘 각각에 대한 개념원리와 수학적인 지식이 필요하다.

데이터 전처리 능력 또한 전문가가 갖추어야 할 영역이다. 흔히 데이터 분석에서 데이터 전처리 작업이 전체 작업 시간의 70~80퍼센트에 달한다. 교과서에서 보는 예제 코드는 예쁘게 나와 있지만 현장 데이터들은 너무 뒤죽박죽이다. 시간이 서로 안맞거나 결측치 또는 이상치가 난문하는 경우도 있다. 비정형 데이터는 분석을 위해 정형 또는 수치형 데이터로 바꾸어주어야 한다. 이러한 작업들은 다 숙련된 전문가들이 해주어야 하는 작업들이다.

마지막으로 전문가에 요구되는 가장 중요한 능력 중에 하나가 비즈니스 현장의 문제를 인식하고 데이터가 주어졌을 때 주어진 데이터로 어떻게 비즈니스 문제로 풀 것인가 고민하는 능력이다. 흔히 문제 인식은 데이터 분석의 첫 단추로 불리고 가장 중요한 선행 단계로 분류된다. 이 단계에서 큰 숲을 잘 정리하고 세부적으로 데이터 분석을 실행해나가야 한다. 그렇지 않고 제대로 된 문제 인식 없이 처음부터 이상한 방향으로 분석을 시작하면 아무리 분석을 열심히 해도 실제 비즈니스 현장에는 쓸모가 없다. 예를 들어서 제조업 분야의 AI 빅데이터 분석 프로젝트를 진행한다고 해보자. 제조업 종사자가 아니면 사용하는 용어도 생소하고, 데이터를 이해하기 위해서는 데이터의 흐름 파악이 필요한데 이는 해당 제조업의 공정 흐름이 파악되어야 하는 부분이다. 따라서 우선 해당 비즈니스 도메인에 대해서 빠르게 이해하고 해당 도메인이 처한 문제점 및 목표점을 파악해야 한다. 그런 다음에 주어진 데이터를 이해하고 분석 모델을 세우기 위한 데이터 및 알고리즘을 제시해야 한다. 그다음 단계가 구체적인 코딩, 분석, 결과 해석 단계가 될 것이다.

빅데이터 분석 프로세스 모델 개요

빅데이터 공부에 도움이 될 만한 책들

1. <빅데이터 기초: 개념, 동인, 기법>(시그마프레스)
2. <인공지능 시대의 비즈니스 전략>(더퀘스트)

AI 빅데이터 분석의 다양환 활용 사례에 도움이 되는 책들

1. <빅데이터가 만드는 제4차 산업혁명>(북카라반)
2. <빅데이터 비즈니스 이해와 활용>(위즈하임)
3. <빅데이터 분석과 활용>(학지사)

데이터 마이닝에서 주로 배우는 기계학습을 이용한 분류, 회귀, 군집 또는 연관 규칙, 빈발 패턴 분석, 아웃라이어 분석과 같은 것들은 대단히 어려운 수학적인 지식이 필요한 게 아니다. 또한 어차피 프로그래밍 언어에서 라이브러리 함수가 수행해주기 때문에 직접 수학 공식을 풀거나 증명할 필요도 없다. 읽어보고 이해한 다음에 바로 넘어가면 된다. 대부분 이해가 되겠지만 혹여나 몇 가지 이해가 안 되더라도 크게 문제가 없다. 우선은 그냥 넘어가도 된다.

데이터마이닝 학습에 도움이 되는 책들

1. <데이터 마이닝 개념과 기법>(에이콘출판사)
2. <패턴인식>(교보문고)
3. <데이터 마이닝 기법과 응용>(한나래)

구글 학술검색이나 RISS에서 검색을 해본 다음에 읽어도 좋고 관련 저널을 정한 다음에 해당 저널의 논문들을 주기적으로 찾아보고 읽는 것도 좋다. 나는 국내 저널로는 <지능정보연구>, <한국경영과학회지>, <Information Systems Review>를 주로 본다. 해외 저널로는 <IEEE Access>, <IEEE Transactions on Big Data>, <Information Systems Research>를 보고 있다. 관련 저널을 선택할 때 팁을 주자면 정보시스템학 계열의 저널을 선택하는 게 좋다. 수학, 통계학, 컴퓨터공학, 산업공학 계열은 특정 알고리즘을 고안해서 제안하는 논문이 대부분이다. 하지만 상대적으로 정보시스템학 계열 저널의 논문들은 실제 비즈니스 환경에 효과적으로 적용된 사례를 보여주고 해석하려는 특성이 있다. 따라서 각 분석방법론, 알고리즘들의 활용 사례를 이해하기에는 안성맞춤이다.

현재까지 나와 있는 국가 기관, 민간 자격증 중 실력 향상에 도움이 될 수 있는 자격증을 나열해보면 다음과 같다. 한국데이터산업 진흥원에서 시행하는 자격시험 중 '데이터 분석 자격검정', 'SQL 자격검정'이 있고 <한국경제>에서 시행하는 '경영 빅데이터 분석사'가 있다. 또한 한국산업인력공단에서 시행하는 '사회조사 분석사 필기' 시험 정도를 꼽을 수 있다.

수리 통계학을 공부하는 방법

딥러닝이 제대로 구현되기 위해서는 두 가지 요건이 필요하다. 충분히 많은 데이터의 양과 이를 연산할 수 있는 컴퓨터의 연산 능력이다. 과거에는 두 가지 모두 충분히 충족되지 않았기 때문에 딥러닝 구현이 어려웠다. 하지만 최근에는 각종 사물의 센서, 인터넷 플랫폼 등에서 엄청나게 많은 데이터가 쏟아져 나오고 GPU의 발달로 컴퓨터의 연산 능력도 엄청나게 증가했다. 따라서 과거 이론으로만 생각했던 딥러닝을 실제로 구현이 가능하게 된 것이다.

딥러닝에 사람들이 열광하는 이유는 이렇게 정확도 측면에서 성능이 좋기 때문이다. 물론 딥러닝도 단점이 있다.

우선 고성능 장비가 필요하며 학습하는 데에 시간도 비교적 오래 걸린다. 또한 정확도는 잘 나오는데 어떠한 이유로 결과가 나오는지 결과 해석이 어렵다. 흔히 블랙박스 모델이라고도 불리는 이유다. 예를 들어 회귀분석 같은 경우는 변수마다 회귀계수라고 불리는 수치가 있어서 어떠한 변수가 얼마만큼 모델에 유의미한 영향력을 끼치는지 알 수 있다. 즉, 결과에 대한 해석이 가능하다. 하지만 딥러닝은 결과는 잘 나오는데 어떠한 이유로 이러한 결과가 나오는지 알거 어렵다.

딥러닝 공부하기

1. <딥러닝 제대로 시작하기>(제이펍)
2. 모두를 위한 딥러닝(홍콩 과기대 김성훈 교수)
3. <밑바닥부터 시작하는 딥러닝>(한빛미디어)
4. <케라스 창시자에게 배우는 딥러닝>(길벗)

1년 안에 AI 빅데이터 전문가가 되는 법(책)

둘러보기 메뉴

개인 도구

이름공간

변수

보기

더 보기

검색

둘러보기

도구