Programming/Knowledge

[머신러닝 for 비즈니스] 비즈니스에 가치를 더하는 기계학습 인프라 구축 6단계

지표덕후 2021. 9. 10. 01:22

데이터 사이언티스트이자 데이터 전도사를 자처하는 Vishal Morde가 <6 Steps to Create Value from Machine Learning for Your Business>라는 제목으로 쓴 컬럼을 번역한 글입니다. 머신러닝을 자사 사업에 적용해 수익을 창출하려는 경영진들이 머릿속에 품어야할 전략적 로드맵을 간명하게 제시하고 있어, 일독해봄직 합니다.

천 년 후 누군가가 인류의 역사를 쓸 때, 머신러닝(ML)의 출현은 중요한 시대의 변혁을 알리는 중요한 이정표로 언급될 겁니다. 인공지능(A.I.)의 한 분야인 기계학습(M.L.)을 사용하면 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습할 수 있습니다. 오늘날 기계학습은 고객 데이터에서 가치를 창출하는 핵심으로 자리 잡았습니다. 넷플릭스의 추천 영화, 페이스북의 얼굴 인식 기능, 구글의 자율 주행 자동차는 모두 기계학습 기반 솔루션의 사례입니다. 그러나 기계학습과 인공지능은 아직 초기 단계라, 업계 리더들이 광고 효율성을 최적화하고 비즈니스에 올바른 우선 순위를 설정하는 데에 여전히 난관이 있습니다. 이 혁신의 잠재력을 극대화 하려면 이 기술이 비즈니스에 실질적인 가치를 창출할 수 있도록 전략적 로드맵을 구축하여 머신러닝 기능을 구축해야 합니다.


1단계 : 비즈니스 조직을 위한 데이터 패브릭(data fabric) 구축


데이터 중심 경제에 살고 있음에도 불구하고 우리는 데이터의 가치를 평가절하는 경향이 있습니다. 치명적인 데이터 침해가 발생한 경우에나 우리는 이 데이터가 얼마나 귀한 자산이었는지 상기합니다. 데이터 패브릭은 각기 다른 리소스들을 하나의 플랫폼에 통합시켜 기업 전반에 걸쳐 데이터를 원활하고 단순하게 관리할 수 있게 하는 에코시스템입니다. 데이터 패브릭 생성은 ML 솔루션을 배포하기 위해 가장 중요한 단계 중 하나입니다. 효율적이고 잘 설계된 데이터 구조가 없으면 귀중한 데이터가 사일로에 갇히게 될 것이며, 데이터 조직화, 민주화 및 수익화를 이루기 어려울 것입니다. 데이터 패브릭 기반 구축이 없다면 머신러닝은 '쓰레기를 넣고 쓰레기를 배출하는(garbage-in garbage-out)' 것이 되어버려 고객경험을 해치고 위험할 정도로 부정확한 의사결정으로 이어질 것입니다.


2단계 : 적합한 인재 채용


일반적으로, 머신러닝 인적자본(human capital) 전략은 박사 학위, 뛰어난 컴퓨터 프로그래밍 기술, 뛰어난 분석 능력 및 뛰어난 비즈니스 통찰력을 갖춘 '유니콘' 데이터 과학자를 고용하는 것입니다. 당연히 이런 신화적인 생물을 찾는 것은 불가능합니다! 이런 인재를 구하는 건 우리 상상에서나 가능하기 때문에 우리는 유니콘이라고 부릅니다. 기본적으로 머신러닝은 팀 스포츠이며 도메인 (지식) 전문가, 통계 전문가 및 데이터 엔지니어로 구성된 다기능 팀이 3명의 유니콘 데이터 과학자를 합친 것보다 훨씬 더 많은 것을 달성할 수 있습니다.

대개 머신러닝 전문가들은 특정 알고리즘을 선호하는 경향이 있습니다. Xgboost(extreme gradient boosting algorithm)와 같이 말입니다. 이런 알고리즘이 문제를 즉시 해결하는 만능 열쇠가 아니라 도구함 속에 있는 여러 도구들 중 하나로 여길 수 있는 그런 데이터 사이언티스트를 고용하는 것이 중요합니다. 적절한 외부 인재를 영입하고 내부 인재를 영입하는 파이프라인을 만드는 것이 기업 전체에 ML을 성공적으로 전파하기 위한 필수 전제 조건입니다.


3단계 : 랩 환경 만들기


ML은 과학 분야이며 과학은 실험실(lab)에서 발생합니다. 성공적이고 신속한 프로토타입 생산을 위해서는 엔터프라이즈의 모든 데이터 자산, 최첨단 분석도구 및 챔피언-챌린저(champion-challenger) 테스트를 실행할 수 있는 여건이 조성된 랩 환경이 필요합니다. 이러한 세팅을 통해 다기능 팀은 비즈니스 문제를 정의하는 것에서부터 분석 실험을 수행하고, 궁극적으로는 더 큰 예측력 혹은 더 깊은 소비자 통찰력을 갖춘 'minimum-lovable(최소한의 기능을 탑재했지만 소비자에게 사랑 받기에는 충분한)' 신규 ML모델을 빠르게 개발할 수 있습니다. 랩 환경을 통해 팀은 수많은 연구 이니셔티브를 수행하고 실패한 실험에서 신속하게 복구하며, 종국에는 우리 사업에 가장 가치 있는 기계학습 애플리케이션을 찾아낼 수 있습니다.


4단계 : 성공적인 파일럿 운영


성공적인 파일럿 어플리케이션이 식별되면, 다음 단계는 그걸 고객과의 접점에 작용하는 비즈니스 전략과 운영에 적용하는 것입니다. 이 단계에서는 고무를 도로에 던지는 거랑 비슷한데, 불행히도 고무가 도로에 닿자마자 녹아버립니다! 부적절한 기술 인프라 사용, 잘못된 소프트웨어 엔지니어링 관행, 모델 거버넌스의 부재는 훌륭한 모델도 수렁에 빠지는 재앙을 만듭니다.

컨테이너 플랫폼의 등장으로 기계학습 작업을 표준화된 단위로 패키징해서 개발, 배포할 수 있게 되었습니다. 그러나 이를 위해서는 최고 성능 표준을 유지하면서 다양한 운영체제 전반에 걸쳐 조정하고 통합하는 작업이 필요합니다. 이것이 가까운 장래에 데이터 엔지니어에 대한 수요가 데이터 과학자에 대한 수요보다 훨씬 높을 것으로 예상되는 이유입니다. 그럼에도 불구하고 정말 몇 안 되는 결정적인 기계학습 모델을 성공적으로 배포하고 운영하는 것이 조직 전체를 변화시키는 데 필요한 모멘텀을 만들어낼 수 있습니다.


5단계 : 전사적으로 기계학습을 적용하기 위한 규모 확대


조직 내에서 가치 창출은 다양한 형태를 취하지만 결국 핵심 비즈니스 프로세스를 더 낫게, 더 빠르게 또는 더 저렴하게 만드는 것과 관련돼있습니다. 모든 경영진은 주요 프로세스에 대한 포괄적인 감사를 수행하고 지도학습 혹은 비지도학습 ML 알고리즘로부터 잠재적 기회를 발굴해야 합니다. 어떤 어플리케이션들이 잠재적으로 우리 사업에 가치를 제공할지 식별되면 고객이 누리게 될 이점을 기반으로 새로운 이니셔티브의 우선순위를 지정해야 합니다. 그러나 기계학습 알고리즘 선택을 결정하는 데 큰 역할을 하는 몇 가지 산업별 제약 조건이 있습니다. 잠재적인 응용 프로그램 목록이 식별되면 비즈니스 가치의 증분과 잠재적인 고객 이점을 기반으로 새로운 이니셔티브의 우선 순위를 지정해야 합니다. 그러나 기계학습 알고리즘을 선택할 때에는 산업별로 내재된 제약 조건이 있습니다. 가령, 소비자 금융 분야의 규제는 모델의 해석 가능성에 대해 매우 높은 임계치를 요구합니다. 따라서 은행은 인공신경망(artificial neural networks)과 같은 블랙박스 방법론을 적용하는 데에 매우 신중해야 합니다. 이 분야는 현재 활발하게 연구가 진행되고 있으며, '불가지론적 모델에 대한 지엽적인 해석 가능성(locally interpretable model-agnostic explanations, LIME)'과 같은 여러 오픈 소스 프로젝트들이 업계에서 많은 주목을 받고 있습니다. 전반적으로 적절한 우리가 영위하는 사업 맥락 내에서 기계학습을 적용하는 것이 중요합니다.

기본적으로 모든 모델은 잘못되었지만 일부는 유용하다.
- George Cox, 현대 통계학의 아버지

6단계 : 문화적 변화 주도


마지막으로, 고전적 통계방법론에서 현대 머신러닝 방법론으로의 근본적인 전환을 수용하는 조직문화가 필요합니다. 이러한 변화는 팀이 내부 '괴짜'를 포용하고, R 및 Python과 같은 새로운 프로그래밍 언어나 아파치 하둡 등과 같은 오픈소스 빅데이터 프레임워크를 계속 학습함으로써 그들의 스킬셋을 업데이트하게끔 하는, '기본적으로 배움에 열려 있는' 문화를 구축됨으로써 촉진됩니다. 나아가 경영진은 전사적으로 데이터와 지식 보급을 통해 데이터 기반 의사 결정 문화를 촉진해야 합니다.

우리는 산업 현장에서, 보다 예측력이 높은 모델, 더 깊은 통찰력, 그리고 더 나은 고객경험을 만들기 위해 기계학습이 활약하는 거대한 구조적 변화를 목격하고 있습니다. 기계학습 활용을 위한 전략적 로드맵을 생성하고 실행하는 일은 중요한 비즈니스 가치를 실현하고 당신의 사업이 장기적으로 경쟁 우위를 차지하는 데에 기여할 수 있는 열쇠입니다.