세상에서 가장 이해받지 못하는 영웅, 데이터 과학자
분석을 이등 시민으로 취급하다가 큰 코 다치는 이유
원글: 구가희 (Cassie Kozyrkov) (1부 와 2부 )
번역: 권정민 (JeongMin Kwon) (전편 번역)
당신이 어떤 기술을 숭상할 것인지 결정할 때는 매우 조심해야 한다. 잘못된 선택이 미치는 영향은 손 쓸 수 없이 커져 버릴 수도 있다. 팀도 잘못 이끌게 되는 데다 불필요한 사람을 고용하게 되는 데다가, 진정한 영웅들이 회사를 그만두거나 최근 인기에 편승하는 당신의 우선 순위에 맞추기 위해 새로운 것을 배우는 일을 목도하게 될 것이다.
트로피 쇼핑용 채용
데이터 과학 분야의 최고 능력자를 고용한다는 것은 굉장히 어려운 일이고, 사실 그다지 놀랄 일도 아니다. “풀스택” 데이터 과학자는 머신러닝, 통계, 분석을 통달한 사람이다. 이런 삼위일체를 이룬 사람을 찾지 못한 팀의 경우, 이 중 가장 구미가 당기는 한 가지 분야의 전문가에게로 눈을 돌리게 된다. 과연 단상에 오를 기술은 어떤 것일까?
오늘날 데이터 과학 분야의 대세는 SF적인 요소를 살짝 가미한 세련된 형태로, 고용 시장에서 사랑하는 AI와 머신 러닝을 사용하는 것이다. 일등석을 노리는 또 다른 도전자로는 견고하고 수학적인 우수성으로 역사와 전통을 자랑하는 통계가 있다. 그렇다면 분석가는 어떨까?
이등 시민이 된 데이터 분석
만약 당신의 주전공 분야가 데이터 분석(혹은 데이터 마이닝이나 비즈니스 인텔리전스)이라면, 앞서 말한 동료들이 당신 앞에서 뻐기거나 취업 시장에서 이들과 같이 일하기 위해서는 관련 분야 실력을 키워야 한다는 말을 면전에서 듣게 되면서 자존감이 무너지는 일을 겪게 될 수 있다.
이 분야에 익숙하지 않은 사람들이 잘 인지하지 못하는 것은 앞서 말한 데이터 과학 산하의 세 직업이 각각 완전히 다르다는 것이다. 세 직업 모두 동일한 방식을 사용하기는 하지만 이 직업들의 유사성은 이 것이 끝이다. 훌륭한 분석가란 다른 데이터 과학쪽 혈통의 적자 버전이 아니라, 효과적인 데이터 활용을 위한 전제조건이다. 그들이 회사를 그만두는 것은 분명 위험한 일이지만, 만약 당신이 이들을 과소평가한다면 그들은 당신을 떠날 것이다.
일종의 존엄성
데이터 분석가에게 통계나 머신 러닝 실력을 기르라고 하는 대신, 본인 분야의 실력을 더 높이라고 격려해 주는 것은 어떨까. 데이터 과학은 한 분야에서 탁월한 것이 두 분야를 적당히 하는 것을 이기는 괴수와 같다.
세 가지 데이터 과학 분야 각각 모두 나름의 우월한 면이 있다. 통계학자는 정확성을, ML 엔지니어는 성능을, 분석가는 속도를 높인다.
각 분야에서 최고의 전문가라면, 세 분야 모두 동등하게 단상에 오를 자격이 있지만 서로 매우 다른 서비스를 제공한다. 이 미묘한 부분을 이해하기 위해 데이터 과학 각 분야에서 제대로 탁월한 경우, 무엇을 얻게 되고, 각 직무에서 살아남으려면 어떤 성격이 필요한 지를 살펴보도록 하자.
통계의 강점: 정확도
데이터를 넘어서서 결론에 도달할 때의 전문가로서 통계학자는 불확실한 세상에서 자신을 속이는 것으로부터 최고의 보호 수단이다. 그들에게 있어서, 무언가를 대충 추론하는 것은 백짓장처럼 아무런 생각을 하지 않는 것보다 더 큰 죄여서, 훌륭한 통계학자가 당신의 부풀은 꿈에 제동을 걸어줄 수 있을 것이다. 그들은 까치발을 선 채로 문제에 방법론이 제대로 확인되었는지 깊숙이 들여다 볼 것이고 주어진 정보로부터 어떤 추론이 유효할 것인지를 끊임없이 고민할 것이다.
많은 사람들은 통계학자가 본질적으로 인식론자라는 것을 생각지 못한다. 확실성이나 불확실성은 마법으로 이루어지는 것이 아니므로, 그들의 역할은 진실을 만들어내는 것이 아니라 가능한 정보를 통해 구미에 맞는 가정을 합리적으로 통합하는 것이다.
결과: 리더가 위험을 제어하는 방향으로 중요한 결정을 내릴 수 있도록 도와주는 통찰력을 제공할 수 있다.
놀라운 일은 아니지만, 많은 통계학자는 어떠한 철학도 없이 방정식만 갖다 쓰려는 “신생 기업”에 대해 독설을 하는 경향이 있다. 통계학자를 대하기 힘들게 느껴진다면, 다음의 응급처치를 적용해 보자: 데이터 이상의 어떠한 결론도 내지 말자. 이런 경우 그들이 애초에 필요하지 않다. ( 행동보다 말이 쉽지 않나? 특히 중요한 시작 결정을 할 때는 더욱 그렇다.)
머신 러닝의 강점: 성능
만약 당신이 “넌 99.99999% 정확성 테스트를 통과하는 모델을 만들지 못할 거야”라는 말에 “두고 봐”라고 대답한다면 당신은 머신 러닝 응용/AI 엔지니어일 것이다. 머신러닝 전문가는 프로그래밍 코드로 돌아가는 프로토타입과 실 서비스 단계까지 만들어봤고 몇 년 동안 매년 실패를 겪으면서 단련된 회복성을 가지고 있어서, 그들은 교과서에는 완벽한 해답이 없다는 것을 알고 있다. 대신 그들은 시행 착오의 마라톤에 뛰어든다. 각각의 새로운 옵션을 시도하는 데 얼마나 오래 걸릴지에 대한 직감이 뛰어난 것은 엄청난 이점이며 이는 알고리즘이 작동하는 방식에 대해 자세히 아는 것보다 소중하다(두 가지 모두 가지고 있는 것이 좋지만).
“돌아가게 할 거야.” -엔지니어
결과: 통계학자의 엄격한 테스트 기준 통과하고 비즈니스 리더가 요구하는 대담한 성과를 전달할 수 있는 까다로운 작업을 자동화하는 시스템을 만들어낸다.
성능은 지표를 완수하는 것 이상을 뜻한다 — 믿을 만 하고, 확장 가능하며, 실 서비스에서 잘 작동하는 유지보수가 쉬운 모델을 뜻한다. 엔지니어링 능력이 우수해야 하는 건 필수다.
넓이 대 깊이
앞의 두 역할의 공통점은 이 둘은 특정 문제에 대해 손이 많이 가는 해결책을 제공한다는 것이다. 만약 문제가 풀리기만 해도 되는 거라면, 굳이 그들의 시간과 당신의 돈을 낭비할 필요가 없다. 비즈니스 리더 간에 종종 회자되는 한숨 섞인 이야기로, “우리 데이터 과학 그룹은 쓸모가 없어.” 가 있는데, 보통 이런 경우 분석 전문가가 없다는 문제가 도사리고 있다.
통계학자와 머신 러닝 엔지니어는 시야가 좁고 깊은 사람들이므로(신기하게도 토끼굴 모양과 같다), 그들의 노력에 적합한 문제를 맞춰 주는 것이 매우 중요하다. 만약 당신과 일하는 전문가들이 잘못된 문제를 조심스럽게 풀고 있다면, 당연하게도 데이터 과학에 대해 많이 투자를 한다고 하더라도 성과가 나지 않아 괴로울 것이다. 당신이 좁고 깊은 형태의 전문가를 제대로 사용하려고 한다면, 당신이 가지고 있는 문제가 이들에게 적합한 문제거나 넓고 얕은 접근을 통해 이런 문제를 찾아야 한다.
분석의 강점: 속도
최고의 분석가들은 엄청나게 빠른 코더들로 많은 데이터셋을 빠르게 훑고, 다른 전문가들이 “칠판”에 글을 쓰는 것보다 빠르게 가능한 통찰들을 발견할 수 있다. 그들의 약간 허술한 코딩 스타일은 전통적인 소프트웨어 엔지니어들은 절대 이해하지 못한다….이런 통찰들을 찾아내기 전까지는 말이다.
속도는 가장 큰 미덕이고, 이를 통해 유용할 수도 있는 싹을 미리 잘라내버리지 않을 수 있다. . 아름답고 효과적인 그래프는 사람들의 마음에서 정보를 보다 빠르게 끄집어낼 수 있도록 도와주고, 잠재된 통찰력에 쏟을 수 있는 시간을 더 벌어 준다.
통계학자와 ML엔지니어들이 속도를 내지 못하고 있을 때, 분석가는 의사결정자와 다른 데이터 과학 분야 동료들에게 영감의 폭포수를 만들어 준다.
결과: 비즈니스에서 이전에 몰랐던 미지의 세계에 대해 맥을 짚어주고 눈을 뜨게 해 준다. 이들은 의사결정자가 통계학자와 머신 러닝 엔지니어에게 어떤 가치있는 일을 줄 지를 결정하고 수학적인 삽질로 쓸데없는 토끼 굴을 파고 있는 데서 구해줄 수 있는 영감을 만들어준다.
어설픈 허튼 소리인가 근사한 이야기인가?
“하지만,” 통계학자가 이의를 제기한다. “대부분의 통찰이라는 것은 쓸데없던데.” 그들의 말에 따르자면 이렇게 탐색한 결과는 잡음만을 반영하고 있다. 그럴 수도 있지만, 여기엔 좀 더 이야기할 것이 있다. 분석가는 데이터 스토리텔러다. 그들의 권한은 흥미로운 사실을 요약하되 통계적 근거 없는 시적 영감을 진지하게 사용하지 않도록 조심하는 것이다.
불행히도 상대적으로 실제 판매자는 분석가 중 매우 적다. 주의하자. 데이터 과학자를 자처하는 데이터 약장사들이 넘쳐난다. 이런 사람들은 허튼 소리를 퍼뜨리고, 결정을 “도와주고자” 체계적이지 않은 방식으로 데이터를 뛰어넘어 원하는 대로 불확실성에서 확실성을 만드는 마법 따위는 없다. 당신의 윤리 기준이 다소 부족하다면, 아마도 당신은 이런 가짜 약장사를 곁에 두고 당신의 사업의 마케팅 흑마술 부문에 그들을 앉힐 것이다. 개인적으로 나는 그러지 않는 것을 선호한다.
훌륭한 분석가는 그들의 업에 있어서 확고하게 지키는 황금률이 있다. 데이터를 넘어서는 결과를 도출하지 않는다는 것이다.
분석가가 사실을 고수하고(“이게 여기서 말하는 것이다.” 하지만 이 말이 의미하는 것은 뭘까? “여기서 말하고 있는 것은 이것 뿐이다.”) 있고 자신들을 너무 심각하게 생각하고 있는 게 아니라면, 그들이 저지를 수 있는 최악의 범죄는 그들이 하는 일이 다른 사람들 시간을 낭비하게 하는 것이다. 황금률만 제대로 지키고 있는 선에서, 좋은 분석가는 보다 부드럽고 포괄적인 말을 사용하며(“결론은” 이라는 말 대신 “이 덕분에 이런 내용을 궁금해 하게 되었습니다”) 리더들이 과도하게 모든 영감에 대해서 가능한 다양한 해석을 하려고 하는 의지를 누그러뜨린다.
가설 검정에는 통계 기술이 필요하지만, 그 가설을 가장 처음 끄집어낼 수 있는 최적의 사람은 분석가다. 예를 들어, 분석가는 “이건 연관관계일 뿐이지만, 이런 관계가 나온 이유는…” 라고 제시하고 그렇게 생각한 이유를 설명할 수 있다.
이는 데이터를 넘어서는 강한 직관력과, 어떤 가설이 통계학자가 공을 들여야 할 정도로 중요한 지를 결정하는 의사 결정자에게 선택지를 제시하는 의사 소통 능력이 필요한 일이다. 분석가가 충분히 성숙한 역량을 가지고 있으면, 그들은 흥미로운 것 뿐이 아닌 중요한 것이 어떤 것인지 판단해서, 의사 결정자가 중매자 역할에서 한 발짝 떨어질 수 있도록 한다.
세 혈통 중, 분석가가 의사 결정의 왕좌의 적자다.
분야별 전문 지식은 데이터에서 흥미로운 패턴을 더 빨리 파악하게 해주므로, 최적의 분석가는 진지하게 도메인에 익숙해지려고 한다. 도메인에 익숙해지지 못하는 것은 경고 신호다. 분석가는 호기심이 많아서 이로 인해 비즈니스 감각을 빨리 기르게 되고, 그들이 도출한 결과를 통해 수많은 가짜 경고들을 의사 결정권자가 신경써야 할, 신경써서 선별된 통찰들로 전환한다.
시간 낭비를 막기 위해, 분석가는 그들이 말하고자 하는 바를 이야기로 만들고 이를 의사 결정권자에게 전달하기 전에 후속 조사를 통해 이 이야기가 이치에 맞는 지를 여러 각도에서 점검한다. 만약 의사 결정권자가 감동적인 이야기를 통해 중요한 결정을 할 위기에 처해 있다면, 통계학자에게 배트맨 신호를 보내서 얼른 와서 (물론 새로운 데이터를 가지고) 의사 결정권자의 생존과 위기 정도를 가정했을 때 이런 행동이 현명한 선택인 지를 확인해 달라고 요청한다.
분석가-통계학자 조합
사실을 고수하고자 하는 분석가에게 있어, 잘못된 것은 없다. 단지 느린 것이 있을 뿐이다. “일을 정확하게 하기” 위해 통계 지식을 사용하다보면, 특히 탐색적 통계 분석과 통계적 정확성 간에 의사 결정자 라는 매우 중요한 필터가 있는 경우, 정작 중요한 곳에서 핵심을 놓치는 경우가 있다. 의사 결정을 해야 하는 사람은 전문가가 많은 노력을 들일 가치가 있는 분석가의 통찰을 선택했을 때 이 것이 비즈니스에 미치는 영향에 대해 책임을 져야 한다. 분석가-통계학자 조합이 능력있는 의사 결정자나 비즈니스 리더가 아니라면 이들의 기술 조합은 사이에 큰 구멍이 있는 샌드위치와 같을 것이다.
하지만 이 간극을 메울 수 있는 분석가는 매우 큰 가치가 있다. 그들을 귀하게 모셔라!
머신 러닝과 AI를 위한 분석
머신 러닝 전문가는 대량의 데이터를 알고리즘에 넣어, 설정을 비틀어서, 제대로 된 결괏값이 생성될 때까지 알고리즘을 계속 돌린다. 여기에 분석이 들어갈 자리는 없어 보이지만, 실제로 비즈니스에서는 가능한 데이터라면 믹서기에 한 번에 밀어넣는 경우가 있다.
머신 러닝 실행에 필요한 이상적인 데이터 셋으로 필터링하는 한 가지 방법은 도메인 지식을 활용하는 것이다-어떤 것이 필요한 지 사람들에게 의견을 묻는 것이다. 다른 방식은 분석을 통해서다. 요리에 비유하자면, 머신 러닝 엔지니어는 부엌에서의 일은 대단히 잘하지만, 지금 당장 서 있는 곳은 온갖 재료들로 가득한 어둡고 거대한 창고다. 그들은 손에 잡히는 대로 아무거나 잡아서 부엌으로 끌고 갈 수도 있지만, 우선 손전등을 가진 선수를 창고에 보낼 수도 있다. 분석가는 단거리 선수다. 그들의 여기에 무엇이 있는 지 빠르게 확인하고 요약할 수 있는 능력은 이 과정에 필요한 초능력과 같다.
분석가-ML전문가 조합
분석가는 머신 러닝 프로젝트에 속도를 붙일 수 있어서, 두 가지 기술을 모두 갖추고 있으면 매우 유용하다. 하지만 불행히도, 분석과 머신 러닝 기술 간의 프로그래밍 스타일이나 접근법이 다르다보니 어느 한 쪽에 대해 최고 수준의 기술을 가진 경우는 드물다(그리고 그 사람이 필요에 따라 느리고 철학적이 될 수 있는, 진정한 풀스택 데이터 과학자는 정말로 희귀한 괴수다).
만성적인 과소 평가의 위험성
분석 전문가는 머신 러닝 엔지니어의 싸구려 형태가 아니며, 그들의 코딩 스타일은 속도의 목적에 맞춰진 것이다. 분석가도 불확실성에 기대지 않고 사실을 사용하는 사람들로 통계학자의 덜 된 형태도 아니다. “이게 우리 데이터에 나온 내용입니다. 현재 데이터에서 보여질 수 있는 것 이상으로 이야기하는 것은 제 업이 아닙니다. 하지만 아마 이걸 보면 의사 결정자가 통계학자가 이 문제를 좀 더 진행해 보게 하고 싶어질 겁니다….”
초보자는 이런 일에 다른 두 응용쪽 혈통보다 데이터 과학의 수학을 더 잘 이해하는 상위 분석가가 필요하다는 사실을 깨닫지 못한다. 이런 일에 새로운 가설 검정이나 알고리즘(연구자의 일)을 만들어내는 게 필요한 게 아니라면, 통계학자나 ML 전문가는 다 만들어진 패키지와 검정 방식이 이 일에 적합한 지 확인한 후 이를 사용할 수는 있지만, 방정식과 직접 대면하는 것을 잊어버리곤 한다.
한 가지 예로, 통계학자는 소프트웨어 패키지를 실행하면 되기 때문에 간혹 t 검정의 p값을 구하는 식을 잊어버리지만, 이를 어떻게 사용하고 언제 사용해야 하며, 이에 대한 결과를 정확하게 해석하는 방식은 잊지 않는다. 하지만 분석가는 이를 바로 해석하려 들지 않는다. 분석가는 거대하고, 거친 다차원의 데이터셋의 형태를 먼저 살펴본다. 그리고 p값에 대한 방정식을 사용해서 데이터셋을 나누는 방법을 파악한 후, 원본 데이터셋에서 어떤 패턴을 통해 그들이 본 숫자가 만들어졌는지 역으로 구한다.
수학에 대해 제대로 인지하고 있지 않으면, 그런 견해를 확보할 수 없다. 통계학자와는 달리, 분석가는 t-검정 이 적합한 지 여부는 우선적으로 고려하지 않는다. 분석가는 t-검정을 사용해서 현재의 데이터셋에 유용한 견해를 도출할 수 있는 지에 관심이 있다. 미묘한 차이지만, 이는 매우 중요하다.
통계학자는 데이터 외부의 것들을 처리할 때, 분석가는 데이터 내에 있는 것에 천착한다. 각 분야에서 우수한 사람들의 경우, 양쪽 모두 수학을 심도있게 다루며 많은 경우 동일한 방정식을 다루지만, 그들의 일은 완전히 달라진다.
마찬가지로, 분석가는 데이터를 나누고, 그룹을 정의하고, 이상 탐지를 할 때 머신 러닝 알고리즘도 종종 사용한다. 분석가의 목적은 성능이 아니라 통찰을 얻기 위함이므로, ML 엔지니어와는 접근 방식이 다르고 간혹 잘 못하는 것처럼 보일 수도 있다. 역시나, 이는 다른 일에서 동일한 도구를 사용하는 경우일 뿐이다.
이를 비유를 들어 요약해보면 다음과 같다. 외과의, 양복 재단사, 회사원 모두 핀을 사용한다. 하지만 그렇다고 이 사람들의 일이 모두 동일하거나 비교 가능한 것은 아니며, 모든 양복 재단사들과 회사원에게 역량 향상을 위해 외과 수술 기술을 익히라고 하는 것은 위험한 일이다.
모든 비즈니스에서 필요로 하는 역할은 의사 결정자와 분석가 뿐이다. 만약 분석가가 없어진다면, 어떤 문제를 풀어야 할 필요가 있을 지를 고민해야 할 때 이를 누가 도와줄 수 있을까?
머신 러닝과 통계 기술을 가진 사람을 고용하고 높은 보상을 주는 것을 과하게 강조하다 보면 분석가를 놓쳐버릴 수 있다. 그럼 어떤 문제를 풀어야 할 필요가 있을 지를 고민해야 할 때 이를 누가 도와줄 수 있을까? 당신은 원치 않는 불필요한 프로젝트나 분석 일을 하라고 요구 받게 된 비참한 전문가 집단과 덩그러니 남겨질 뿐이다. 당신의 데이터는 쓸모없게 된다.
연구자를 보살피고 돌보는 것
이렇게 이야기 해도 그다지 귀에 들어오지 않는 많은 리더들은 통계와 ML 엔지니어 버전의 PhD를 고용하고 (앞서 말한 것과 반대로) 연구에 대한 중요성을 매우 강조한다. 물론 그들에게는 가치있고 중요하며 기존의 모든 알고리즘을 사용하여 해결하는 것이 불가능하다고 알려진 문제따위는 없을 것이다.
일단 연구 부서에 투자하고 있고 연구자에게 최근에 한 일에 대해 물어볼 계획이 없다면 일단 괜찮다. 연구를 위한 연구는 고위험성 투자로, 현실적으로 가치가 없다고 나올 가능성이 충분히 있기 때문에 정말 일부 회사만 이에 대해 투자해도 문제가 없다.
연구자는 당신이 문제 해결을 위해 적절한 문제가 있는 경우에만 연구 부서 외부에 속하게 된다. 그들의 기술은 이미 바로 돌릴 수 있는 형태로 만들어져 있지 않은 경우 새 알고리즘을 밑바닥부터 만들고 테스트하는 것이다. 만약 당신이 제시한 문제가 적절하지 않은 경우, 연구자는 암울한 시지프스의 굴레에 갖히는 경험을 하게 될 것이다(이것은 전적으로 연구자가 아닌 당신의 책임이다). 연구자는 대개 데이터 훈련 과정에 한 세월을 들이게 되는데, 이건 완전히 쓸데없는 일은 아니라는 점에서 그나마 존중받을 만 하다.
결과적으로, 적합한 프로젝트를 위해 다른 역할들을 고용하기 위한 적기는 분석가가 프로젝트를 명확하게 정의하고 그들이 이를 해 보았다가 실패한 것으로 판명난 후다. 이 때가 전문적인 발명가를 발굴할 때다.
핵심 내용 요약
이런 게 걱정이라면, 다른 역할들보다 먼저 분석가를 고용하라. 그들을 존중하고 충분한 보상을 해라. 그들이 가진(그리고 다른 사람에게는 없는) 역량을 보다 높이 키우도록 힘을 북돋아주자. 이 이야기에서 언급 된 등장 인물 중 데이터가 필요한 모든 비즈니스에 필요한 역할은 의사 결정자와 분석가 뿐이다. 다른 역할은 당신이 무엇이 필요한 지 정확히 알고있을 때만 사용할 수 있다. 분석가와 함께 데이터 관련 일을 시작하여 당신의 앞에 펼쳐진 풍부하고 아름다운 정보에 눈을 뜨게 되는 새로운 능력을 얻게 된 것에 감사하자. 영감은 매우 강력하고 쉽게 무시할 만한 것이 아니다.