2018

2018년 09월 11일  

        ⓒ CIO Korea, Bob Violino | InfoWorld

 

 

아마도 인공지능(AI)의 부분집합인 머신러닝(ML)에 대한 이야기를 갈수록 많이 듣고 있을 것이다. 그렇다면 ‘머신러닝’으로 정확히 무슨 일을 할 수 있을까?

머신러닝은 다양한 방식과 기법을 아우르고, 각각은 잠재적 이용 사례를 가지고 있다. 머신러닝 툴과 인프라에 대한 투자에 다짜고짜 뛰어들기 전에 이들을 먼저 조사하는 것이 바람직하다.

-> '말장난에 속지말자!'··· 헛소리 인공지능· 머신러닝 구별법

- 머신러닝 기법(Methods)

 

지도 학습(Supervised learning)
머신이 학습해야 하는 것을 이용자가 파악하고 있다면 지도 학습이 이상적이다. 엄청난 양의 훈련 데이터에 머신을 노출시키고, 결과를 조사하고, 기대한 결과를 얻을 때까지 매개변수를 조정할 수 있다. 그 후, 머신이 이전에 본 적이 없는 일련의 검증 데이터에 대해 결과를 예측하도록 함으로써 머신이 무엇을 배웠는지 알 수 있다.

가장 일반적인 지도 학습 작업은 분류와 예측을 포함하고, 또는 회귀(regression)를 포함한다.

지도 학습 기법은 과거의 재무 실적에 대한 정보에 기초해 개인 및 조직의 재무 위험을 결정하는 등의 용도에 쓰일 수 있다. 아울러 과거의 행동 패턴에 기초해 고객이 어떻게 행동할 것인지, 또는 이들의 선호사항이 무엇인지에 관한 양질의 의견 역시 제공할 수 있다.

예를 들어, 온라인 대출 사이트인 렌딩 트리(Lending Tree)는 데이터로봇(DataRobot)의 자동 머신러닝 플랫폼을 이용하여 고객에 대한 경험을 커스터마이징하고, 고객의 과거 행적을 기초로 고객의 의도를 예측한다고, 액크셰이 탠던(Akshay Tandon) 부사장 겸 전략/애널리틱스 책임자는 말했다.

고객의 의도를 예측함으로써 – 주로 ‘리드 스코어링(lead scoring)’을 통해 – 렌딩 트리는 이자율을 단순히 둘러보는 사람과 실제로 대출을 신청할 용의가 있는 사람을 높은 확률로 구분한다. 지도 학습 기법을 이용하여, 회사는 거래 성사의 확률을 정의하는 분류 모델을 구축했다.

비지도 학습(unsupervised learning)
비지도 학습은 머신이 데이터 세트를 탐색하여 상이한 변수들을 연결하는 감추어진 패턴을 규명하는데 활용된다. 데이터를 통계적 특성들에만 기초해 클러스터링 하는데 이용되곤 한다.

비지도 학습의 좋은 응용 분야는 개연적 기록 연결을 수행하는데 쓰이는 클러스터링 알고리즘이다. 이는 데이터 요소들 간의 접점을 추출하고, 이를 바탕으로 개인 및 조직을 식별하고 물리 및 가상 세계에서 이들의 접점을 규명한다.

이는 이질적 출처로부터 또는 상이한 사업 부문에 걸쳐 데이터를 통합하여 고객에 대한 일관되고 포괄적인 시각을 구축하는데 특히 유용하다고 렉시스넥시스 리스크 솔루션즈(LexisNexis Risk Solutions)의 기술 부사장 플래비오 빌래누스터는 설명했다. 이 회사는 애널리틱스를 이용해 고객이 위험을 예측하고 관리하는데 도움을 준다.

비지도 학습은 정서 분석(sentiment analysis)에 이용될 수 있다. 이는 개인의 소셜 미디어 게시물, 이메일, 여타 서면 반응을 바탕으로 개인의 정서 상태를 규명한다고 컨설팅 회사인 캠브리지 컨설턴트(Cambridge Consultants)의 특수 머신러닝 엔지니어인 샐리 엡스타인은 전했다. 그녀에 따르면 비지도 학습을 통해 통찰력을 추출하여 고객을 만족시키는 금융서비스 회사가 늘어나는 추세다.

준지도 학습(semisupervised learning)
준지도 학습은 지도 및 비지도 학습을 혼합한다. 감독자는 데이터의 작은 부분에 라벨을 붙여 기계에게 데이터 집합의 나머지를 어떻게 분류할 것인지에 대한 단서를 주는 방식이다.

준지도 학습은, 무엇보다, 신분 사기를 검출하는데 사용될 수 있다. 빌랜누스터에 따르면 사기는 비-사기 활동만큼 빈번하지 않고, 따라서 사기 행위는 적법 행위 세계에 있는 ‘예외(anomaly)’로 간주될 수 있다. 그래도 사기는 존재하는데, 준지도 예외 검출 머신러닝 기법이 이런 문제 유형에 대한 솔루션을 모델링 하는데 사용될 수 있다.

준지도 학습은 라벨 처리된 것과 라벨 처리되지 않은 데이터가 혼재할 때에도 사용될 수 있고, 이는 대기업 환경에서 빈번하게 목격된다고 엡스타인을 전했다. 또 아마존은 라벨 및 비라벨 데이터에 관해 AI 알고리즘을 훈련시킴으로써 알렉사(Alexa)의 자연어 이해를 강화할 수 있었다고 그는 설명하며, 이는 알렉사의 반응의 정확도를 높이는데 유용했다고 덧붙였다.

강화 학습(reinforcement learning)
강화 학습에 의해 기계는 환경과 상호작용할 수 있다(예컨대 하자 제품을 컨베이어에서 휴지통으로 밀어내는 것). 아울러 이용자가 원하는 것을 한 경우 보상을 제공한다. 보상 계산을 자동화함으로써 기계가 스스로 학습할 시간을 준다.

강화 학습의 사용 사례 중 하나로는 소매 매장에서 의류 및 여타 물품의 분류를 들 수 있다. 일부 의류 소매업체는 의류, 신발 및 액세서리 같은 물품을 분류하는데 로봇 공학 등의 새로운 기술을 시험하고 있다고 신생 기술 및 비즈니스 동향에 집중하는 컨설팅 회사인 딜로이트의 애널리스트 데이비드 채스키는 말했다.

채스키는 로봇이 강화 학습을 이용하여 (또 딥 러닝을 이용하여) 물품을 잡을 때 어느 정도의 압력을 사용해야 하는 지를, 그리고 물품목록 안에서 이들을 가장 적절하게 잡는 법을 파악한다고 설명했다.

강화 학습의 한 변형은 딥 강화 학습(deep reinforcement learning)이다. 이 기법은 지도 학습 또는 비지도 학습 기법만으로 작업을 완수할 수 없을 때 자율적 의사 결정을 내리도록 하는데 아주 적합하다.

딥러닝(deep learning)
딥러닝은 비지도 또는 강화 학습 등의 학습 유형을 수행한다. 개략적으로, 딥러닝은 주로 신경망을 이용하여 데이터 세트의 특징들을 상세히 식별함으로써 사람의 일부 학습 방법을 모방한다.

-> 알아두면 쓸데있는 '딥러닝 이야기'

딥러닝은 딥 신경망(Deep Neural Network, DNN) 형태로 신약 개발에서 고효율 스크리닝을 가속하는데 이용되어 왔다고 채스키는 전했다. 이는 딥 신경망(DNN) 가속 기법을 적용해 현저히 적은 시간에 다수의 이미지를 처리한다. 그러면서 딥 러닝 모델이 궁극적으로 학습한 이미지 특징들로부터 더욱 양질의 통찰력을 추출한다.

아울러 이 머신러닝 기법은 수많은 회사들이 사기에 대처할 수 있도록 해준다. 자동화된 범죄 행위 검출을 이용해 검출률을 제고하는 방식이다.

또한 딥러닝은 자동차 산업에도 쓰일 수 있다. 한 회사는 자동차의 문제를 조기에 검출하는 신경망 기반 시스템을 개발했다고 채스키는 전했다. 이 시스템은 소음과 진동을 인식할 수 있고, 표준으로부터의 편차를 이용해 장애의 성질을 해석한다. 이는 예측 정비의 일부가 될 수 있다. 왜냐하면 자동차 동작 부품의 진동을 판정하여 성능의 미세한 변화까지 인지할 수 있기 때문이다.
 

Image Credit : Getty Images Bank



- 머신러닝 기술(Techniques)

신경망 (neural networks)
신경망은 인간 두뇌의 신경 체계를 모방해 설계됐다. 각 인공 뉴런은 시스템 내부에서 다른 뉴런과 연결된다. 신경망은 계층들로 배열되어, 한 계층의 뉴런이 다음 계층의 다수 뉴런에게 데이터를 전달한다. 궁극적으로 데이터는 출력 계층에 도달하고, 여기서 신경망은 문제 해결, 객체 식별 등을 위한 최선의 추측을 내놓는다.

신경망 사용 사례는 여러 산업에 걸쳐 나타난다.

- 생명과학 및 의료에서, 진단 프로세스를 가속하기 위해 의학 이미지를 분석하는데, 그리고 신약 개발에 사용될 수 있다.

- 통신 및 미디어에서, 신경망은 언어 번역, 사기 검출, 가상 비서 서비스를 위해 사용될 수 있다.

- 금융 서비스에서, 이들은 사기 검출, 자산 운영, 위험 분석에 사용될 수 있다.

- 소매에서, 이들은 계산대 줄을 없애고, 고객 경험을 개인화하는데 사용될 수 있다.

 

결정 트리(decision tree algorithm)
결정 트리 알고리즘은 항목을 배치할 클래스를 결정하는데 유용한 항목 속성에 대한 질문들을 규명함으로써 항목을 분류하는 것을 목표로 한다. 트리 내의 각 노드(node)는 질문이고, 가지(branches)는 항목에 대한 더 많은 질문으로 이어지고, 잎(leaves)은 최종 분류에 해당한다.

결정 트리의 사용 사례로는 고객 서비스, 가격 예측, 제품 플래닝을 위한 지식 관리 플랫폼을 구축하는 것 등이 있다.

보험회사는 잠재 위험에 기초해 어떤 종류의 보험 상품 및 보험료 조정이 필요한지에 관한 통찰력이 필요할 때 결정 트리를 이용할 수 있다고 비즈니스 및 테크놀로지 컨설팅 회사인 SPR의 수석 데이터 과학자 레이 존슨은 전했다.

설명에 따르면 날씨 관련 손해 데이터와 위치 데이터를 중복시켜, 제출된 주장과 지출 금액을 기초로 위험 범주를 생성할 수 있다. 그 후 새로운 커버리지 적용을 모델과 대조해 평가하여 위험 범주와 잠재적 금융 영향을 제공할 수 있다.

랜덤 포레스트(random forest algorithm)
결정 트리는 정확한 결과를 제공하기 위해 훈련을 받아야만 한다. 그러나 랜덤 포레스트 알고리즘은 상이한 속성 세트를 기반으로 결정을 내리는 무작위로 생성된 결정 트리들을 취합하고, 이들이 가장 보편적인 클래스에 투표하도록 한다.

랜덤 포레스트는 데이터 세트에서 관계를 발견하기 위한 다용성 툴이고, 신속히 훈련시킬 수 있다고 엡스타인은 설명했다. 예를 들어, 원하지 않는 벌크 이메일은 이용자뿐 아니라, 서버의 로드 증가를 관리해야 하는 인터넷 서비스 공급자에게도 오랫동안 문젯거리였다. 이 문제에 대응해, 정상적인 이메일로부터 스팸을 걸러내는 자동화된 기법이 개발되었고, 이는 랜덤 포레스트를 이용해 원치 않는 이메일을 신속하고 정확하게 식별한다고 그는 말했다.

랜덤 포레스트의 다른 사용처는 환자 의료 기록을 분석해 질병을 식별하고, 금융 사기를 검출하고, 콜 센터 통화량을 예측하고, 특정 주식 매입에 따른 수익과 손실을 예측하는 것 등이다.

클러스터링(clustering algorithm)
클러스터링 알고리즘은 K-평균, 평균-이동, 기대 값-최대화(K-means, mean-shift, or expectation-maximization) 등의 기술을 이용하여 데이터 포인트들을 공유된 또는 유사한 특징에 따라 그룹핑 한다. 이는 분류 문제에 적용될 수 있는 비지도 학습 기법이다.

클러스터링 기법은 분획화 또는 범주화가 필요할 때 특히 유용하다고 채스키는 전했다. 활용되고 있는 사례로는 개별 특징에 따라 고객을 분획하여 마케팅 활동을 보다 효율적으로 배정하는 것, 특정 독자에게 뉴스 기사를 추천하는 것, 효과적인 법 집행 등이다.

클러스터링은 인간의 눈에 분명하지 않을 수 있는 복잡한 데이터 세트에서 그룹핑을 발견하는 데에도 유용하다. 엡스타인에 따르면, 실례는 데이터베이스 내 유사 문서를 분류하거나, 범죄 뉴스로부터 우범 지역을 규정하는 것 등이다.

연상 규칙 학습(association rule learning)
연상 규칙 학습은 변수들 사이의 관계를 찾는 추천 엔진에서 사용되는 비지도 기법이다. 이는 여러 전자상거래 사이트에서 ‘X를 구입하는 사람은 Y도 구입한다’는 제안의 배경이 되는 기법이기도 하다. 이 기법이 사용되는 실례를 찾기는 어렵지 않다.

구체적 사용 사례로는 판매고 증가를 원하는 특산품 소매업체일 수 있다고 존슨은 전했다. 기업는 이 기법을 이용해 고객의 구매 행동을 조사하여 행사, 스포츠 팀 등을 기념하는 특별 캔 및 번들 제품을 공급한다. 연상 규칙 기법은 고객이 언제 어디에서 선호하는 제품 조합을 구매하는지를 발견할 수 있는 통찰력을 제공한다.

과거의 구매 및 시간 프레임에 관한 정보를 이용해 회사는 보상 프로그램을 선제적으로 생성할 수 있고, 미래의 판매를 견인할 수 있는 특별 맞춤 오퍼를 제공할 수 있다고 존슨은 덧붙였다.

* Bob Violino는 컴퓨터월드, CIO, CSO, 인포월드, 네트워크월드에 기고하는 전문 저술가다. 
ciokr@idg.co.kr

 

※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.ciokorea.com/news/39530]

맨 위로
맨 위로