3년후 AI 초격차 시대가 온다(책)

라이언양 위키
라이언양 (토론 | 기여)님의 2020년 6월 13일 (토) 20:20 판
둘러보기로 가기 검색하러 가기
3년후 AI 초격차 시대가 온다(책)
제목 3년후 AI 초격차 시대가 온다 - 3000퍼센트 가치 창출의 시작
원제
저자 정두희
옮긴이
그린이
출판사 청림출판
출간일 2019.7.12
쪽수 308
ISBN13 9788935212859
ISBN 8935212857
3년후 AI 초격차 시대가 온다, 3000퍼센트 가치 창출의 시작

1 책소개

AI 에 대한 책

2 책 읽은 이유

이번 년도 목표 중 하나는 AI 를 더 잘 이해하는 것이다. 이 목표를 달성하고자 교양수준의 책을 읽게 되었다.

3 기억하고 싶은 글귀

3.1 AI 기술의 취약점

모든 신기술에는 양면성이 있다. 특장점이 있지만 실제 활용하는 현장에서는 기술 본연의 한계에 직면한다. 인공지능도 만능 시스템처럼 인식되곤 하지만 그 나름대로 취약성이 있다. 인공지능에 대해 충분히 이해하려면 이 기술의 취약점도 직시해야 한다.

첫 번째는 데이터 의존도가 크다는 점이다. 인공지능 기술을 실제로 활용하려면 알고리즘을 학습시킬 수 있을 만큼 큰 데이터세트를 작성하거나 확보해야 하는데 그러기가 어려울 수 있다. 의료 분야의 경우, 환자의 진단 결과를 정확하게 예측하려면 방대한 데이터가 필요하다. 앞서 언급한 대로 수만 개의 유전자 정보, 수백 개의 의학저널 등의 지식뿐 아니라 방대한 양의 임상시험 데이터도 필요하다. 이러한 데이터를 확보하거나 데이터에 접근할 수 없다면 인공지능의 수혜를 입기 어렵다는 한계가 있다.

IBM 왓슨이 암 치료 분야에서 활약하고 있지만 한편으로는 추가적인 발전에 대해 회의론이 일고 있는 것도 사실이다. 의학전문매체(STAT)는 왓슨이 정확하지 않고 위험한 진단을 내린다고 폭로했고, 〈월스트리트 저널>도 왓슨이 실제 환자에게 미치는 영향이 제한적이라고 평했다. 이러한 평가의 배경에는 환자의 데이터 수집에 존재하는 한계가 있다. 왓슨은 의학 논문과 교과서 등 방대한 의료정보를 학습하고 있으나, 문헌자료와 연결할 실제 환자 데이터가 부족하다. 암환자를 진료하려면 개인 병력과 치료 결과, 과거 유사 환자 사례 등 다양한 데이터를 학습해야 하는데, 방대한 관련 데이터를 모으는 데는 현실적으로 어려움이 있다. 특히 희귀암이나 재발암 등에 대해서는 데이터 부족 때문에 의료적 성과를 내지 못하고 있다.

두 번째는 데이터의 편향성이다. 인공지능의 학습이 데이터로 진행되다 보니, 데이터 자체가 편향되어 있으면 인공지능의 판단 또한 편향될 수 있다. 아마존에서는 머신러닝을 기반으로 500대 컴퓨터를 동원해 구직자 지원서를 5만여 개 키워드로 분석하는 방식을 적용했다. 그런데 학습을 시작한 지 1년여가 지나자 이 시스템이 경력 10년 이상의 남성 지원자만 후보로 고르기 시작했다. 여성이라는 단어가 들어가면 감점을 하기도 했다. 그동안에는 IT 기업에 남성 지원자가 압도적으로 많았기 때문에, 이런 데이터를 기반으로 한 인공지능이 남성 편
향적으로 서류를 분류한 것이다.

이 문제를 해결하기 위한 방법으로 IBM은 AI 오픈스케일을 내놓았다. 편향된 데이터에 근거한 치우친 결과를 검증하고 바로잡을 수 있는 개방형 기술 플랫폼이다. 이 플랫폼은 인공지능이 적용된 시스템이나 운용 환경에 관계없이 AI가 도출한 의사결정 과정을 설명하고 투명하게 관리하며 AI 편향성을 탐지한다. 어쨌거나 데이터의 편향성 이슈는 모든 분야에서 고려될 수 있다. 인공지능이 사람보다 객관적인 판단을 내릴 수 있는지에 대해서는 조금 더 증명이 필요한 시점이다. 사람의 생명과 직결되는 자율주행에도 인공지능이 적용될 수 있기 때문에 이는 결코 사소한 과제가 아니다.

세 번째는 인공지능의 취지와 달리 인간의 노동이 아직 많이 필요하다는 점이다. 현재 시장에 있는 인공지능 서비스의 90%는 지도학습방식이다. 지도모드의 인공지능에는 인간이 데이터를 주입해주고 지도를 해주어야 한다. 사람이 데이터를 일일이 분류하고, 가공 작업까지 해야 한다. 물론 조직 내 여러 부서의 가용 데이터를 추출해서 통합해주는 인공지능 알고리즘도 존재한다. 그러나 일반적으로 아직까지는 알고리즘 지도를 위해 사람의 손과 시간이 많이 필요한 단계이다.

네 번째는 인공지능이 도출한 결과를 설명하기가 어렵다는 점이다. 딥러닝의 처리방식은 블랙박스다. 딥러닝이 수많은 데이터로 학습을 하고 정확하고 빠른 예측을 해내고 있지만, 어떠한 원리로 예측을 하는지는 과학자나 엔지니어도 알지 못한다. 과장해서 이야기하면, 그동안 보여준 성능을 믿고 맡기는 것이다. 가장 진보된 과학이지만, 상당히 과학적이지 않은 아이러니한 모습이다. 데이터 편향성이 나타나는 이유도 처리 과정이 이처럼 '깜깜이' 방식이기 때문이다. 개발자도 전후사정을 정확히 알지 못하기 때문에 잘못된 판단이나 윤리적인 문제에 봉착할 수도 있다.

다섯 번째는 간접학습의 어려움이다. 인공지능은 상당히 산업 특화적이다. 어느 특정 산업에서 성숙한 인공지능 머신은 다른 분야에서 똑같은 활약을 하지 못한다. 학습하는 배경과 데이터가 다르기 때문에 그대로 적용하지 못하는 것이다. IBM 왓슨이 진단 알고리즘을 개발해 헬스케어 시장을 개척하는 데 성공했지만, 같은 알고리즘을 금융시장에 활용하려면 데이터도 새로 확보해야 하고, 금융산업 전문가와 함께 학습을 새로 시작해야 한다. 알고리즘 적용방식이 거의 비슷하다 해도 환경이 바뀌면 재교육을 해야 한다는 점은 알고리즘의 확장성 측면에
서 한계점이라고 볼 수 있다.

간접학습의 어려움을 해결하기 위해 전이학습(Transfer Learning)이 연구되고 있다.

File:인공지능 전이학습과 응용 분야 동향.pdf