바뀜

둘러보기로 가기 검색하러 가기

1년 안에 AI 빅데이터 전문가가 되는 법(책)

4,093 바이트 추가됨, 2020년 6월 27일 (토) 14:08
편집 요약 없음
{{책
|제목=1년 안에 AI 빅데이터 전문가가 되는 법 - 4차 산업혁명 시대의 최고의 직업
|저자=서대호
|출판사=반니
|출간일=2020.2.25
|쪽수=272
|ISBN13=9791190467117
|ISBN=1190467119
}}
 
[[File:1년 안에 AI 빅데이터 전문가가 되는 법.jpeg|thumb|1년 안에 AI 빅데이터 전문가가 되는 법]]
 
== 책 소개 ==
 
AI 관련 교양서
 
== 책을 읽은 이유 ==
 
AI 와 빅데이터를 제대로 공부하는 방법을 얻고자 구매했다.
 
== 기억하고 싶은 글귀 ==
앞에서도 말했지만 AI 빅데이터 전문가가 되기 위해서는 수리 통계학적 지식, 코딩 능력, 경영학적 서술 능력을 두루 겸비해야 한다. 그래서 가장 섹시한 학문이고 전문적인 분야이기도 하다. 여기서 경영학적 서술 능력은 배제하더라도 수리통계학적 내용이 수업에 전혀 없다는 것은 사실 문제가 있다. 그렇다고 학원 입장에서도 수리통계학, 선형대수학을 가르칠 수도 없다. 수업 시간에 절대적으로 부족하고 수강생들의 수준도 천차만별이기 때문이다.
우선 고성능 장비가 필요하며 학습하는 데에 시간도 비교적 오래 걸린다. 또한 정확도는 잘 나오는데 어떠한 이유로 결과가 나오는지 결과 해석이 어렵다. 흔히 블랙박스 모델이라고도 불리는 이유다. 예를 들어 회귀분석 같은 경우는 변수마다 회귀계수라고 불리는 수치가 있어서 어떠한 변수가 얼마만큼 모델에 유의미한 영향력을 끼치는지 알 수 있다. 즉, 결과에 대한 해석이 가능하다. 하지만 딥러닝은 결과는 잘 나오는데 어떠한 이유로 이러한 결과가 나오는지 알거 어렵다.
#<hr>
딥러닝 공부하기
3. [[http://www.yes24.com/Product/Goods/34970929|<밑바닥부터 시작하는 딥러닝>(한빛미디어)]]
4. [[http://www.yes24.com/Product/Goods/65050162|<케라스 창시자에게 배우는 딥러닝>(길벗)]]
 
<hr>
 
다양한 데이터로 연습하며 실력을 키울 수 있는 방법은 없을까? 바로 캐글(Kaggle) 경연대회가 있다. 캐글은 2010년 설립된 예측 모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결 과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 구글에서 2017년 인수했을 정도로 그 가치를 인정받고 있다.
 
케글 경영대회는 수시로 열리는데 각 대회마다 새로운 데이터 세트와 문제가 주어진다. 주어지는 데이터 세트는 가상의 데이터 세트가 아니라 실제 비즈니스 환경에서 도출되는 데이터 세트다. 그리고 데이터 세트에 대한 자세한 설명과 문제 설명까지 주어진다. 그 다음에 문제를 푸는 것은 참가자의 몫이다. 처음에는 캐글 'Notebooks' 게시판에서 다른 사람들이 한 것을 보고 힌트를 얻을 수도 있다. 또한 'Discussion' 게시판에서 질의응답을 통해 답답함을 해결할 수도 있다. 즉 혼자서 맨땅에 헤딩하는 것이 아니라 집단 토론과 집단 지성을 통해 본인의 견문을 더욱 넓힐 수 있는 것이다. 게다가 우수한 솔루션을 내놓으면 상금까지 받을 수 있으니 더욱 좋다. 캐글의 플랫폼에는 지금까지 열리고 끝났던 경연대회들이 플랫폼에 계속 적재되어 있다. 따라서 엄청나게 많은 실전 데이터 세트와 술루션들이 그대로 저장되어 있고 원하는 사람은 누구나 이것들을 자유자재로 골라서 연습해볼 수 있다.
 
즉 의지만 있으면 굳이 회사에 입사하지 않고도 다양한 데이터 세트로 웹상의 수많은 사람들과 협업하면서 연구하고 실력을 키울 수 있는 것이다. 한 가지 아쉬운 점은 주어지는 데이터 세트가 대부분 CSV 형태로 예쁘게 정제되어 있는 경우가 많다는 것이다. 실제 RDB나 No-SQL에서 쿼리를 통해 데이터를 임포트하고 정제하는 과정이 필요한 경우가 많은데 이것까지는 캐글 경진대회에서 기대할 수는 없다.
 
(중략)
 
예를 들어 이미지 분류에 대해서 공부해보고 싶다면 검색 창에 'image classification' 이라고 검색하면 된다. 그러면 해당 키워드로 검색된 코멘트, 뎅터 세트, 노트북 파일 등을 한눈에 볼 수 있다. 자신의 프로그래밍 언어(파이썬 또는 R)에 맞는 코드들만 따로 필터링할 수도 있고 데이터 세트 양(medium, large, small)에 따라서도 필터링 할 수 있다.
 
<hr>
 
연구 분야는 몇 개 정도를 선택하는 게 좋을까? 개인적인 생각으로는 주 연구 분야를 한두 개 정하고 부 연구 분야도 한두 개 정하는 것이 좋다. 즉 서너 개 정도가 적당하다...(중략)...이렇게 주 연구 분야 한두 개, 부 연구 분야 한두 개를 선정하는 것이 한 사람의 연구자가 연구할 수 있는 이상적인 개수라고 생각한다. 그리고 실제 많은 연구원, 교수들도 이 정도 개수를 연구 분야로 삼고 있다.
 
<hr>
 
한 가지 세부 연구 분야에 대한 교과서 한 권(유명한 교수가 쓴 책 위주), 코딩 책 한 권(개발자가 쓴 책 위주) 정도면 어느 정도 전문가가 되기 위한 준비가 된 것이다. 대신 책은 내용이 꼼꼼히 들어 있는 자세한 책을 선택하고 내용이 충분히 이해되도록 공부해야 한다. 그다음에 굳이 책을 더 읽고 싶으면 알고리즘 적용 분야에 대해 설명한 경영학적인 책을 몇 권 읽으면 도움이 된다.
 
<hr>
 

둘러보기 메뉴