통합 검색어 입력폼

"예비 퇴사자도 다 찾아냅니다"..억대 연봉의 유망직업은?

조회수 2020. 10. 4. 15:00 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

퇴사하려는 직원도 찾아낼 수 있습니다..데이터 사이언티스트가 하는 일
인공지능·자율주행차 기술 원천 ‘데이터’
빅데이터 기반 인공지능이 사람 일 대신
30년 차 데이터 사이언티스트 윤석용 박사

“지금까지 우리는 데이터를 단순한 정보로 여겼습니다. 자율주행차·인공지능 등 4차산업혁명 핵심 기술의 뿌리는 데이터입니다. 지금 사람이 하는 거의 모든 일은 데이터 기반 기술로 대체할 수 있을 것입니다. 데이터 사이언티스트의 활동 영역은 그래서 무궁무진합니다.”


윤석용(54) 박사는 30년 차 데이터 사이언티스트다. 데이터 분석 전문 기업 베가스에서 대표 컨설턴트로 일하고 있다. 베가스는 10년 전 문을 열었다. 연 매출은 100억원 정도다. 대기업이나 공공기관에서 의뢰가 들어오면 데이터를 수집·분석하고 컨설팅을 한다. 그에게 데이터 사이언티스트가 하는 일에 대해 물었다.

출처: 본인 제공
윤석용 데이터 사이언티스트.

-당신은 누구인가.


“30년 차 데이터 사이언티스트다. 1989년 포스코(옛 포항제철) 제강부에서 사회생활을 시작했다. 쇳물을 철강으로 가공할 때 산소나 부산물을 얼마나 넣어야 품질을 높일 수 있을지 데이터를 만들고 분석했다. 1994년 현대전자 자회사로 출범한 현대정보기술로 이직했다. 창립 멤버였다. 5년 동안 IT·데이터베이스 컨설팅을 했다. 2000년부터 2015년까지 포스코경영연구원에서 일했다. 3년 전부터 베가스에서 근무하고 있다.”


-데이터 분석 기업에서는 무슨 일을 하나.


“주로 대기업에서 의뢰가 들어오면 데이터 분석을 해주거나 컨설팅을 한다. 예를 들면 제조 회사에서 쓰는 고가 생산 설비의 부품 교체 시기를 알려준다. 지금까지는 정해진 정비 주기가 있었다. 일정 시간이 지나면 매뉴얼에 따라 멀쩡한 부품도 교체했다. 요즘은 모터에서 나오는 열이나 진동을 센서로 측정한다. 모터 회전 속도가 갑자기 빨라지거나 유해한 화학물질이 나오면 부품 고장 시기를 예측할 수 있다.


직원의 퇴사 확률도 예측한다. 퇴사 의사가 있는 직원이 보이는 전형적인 패턴이 있다. 출퇴근 시간이 불규칙적으로 바뀐다. 회사 컴퓨터로 경쟁사나 유사 업종 정보를 검색하기도 한다. 이 같은 근태·사내 온라인 활동·대외 활동 값에 가중치를 줘서 데이터화한다. 겉보기에 퇴사할 것 같지 않아도 마음 속으로 얼마나 퇴사를 생각하고 있는지 알아낼 수 있다. 퇴사 확률이 높은 직원은 보안 접근 수준을 조정한다. 기밀 유출을 막기 위해서다.


경찰청·법무부 등 공공기관과 함께 프로젝트를 할 때도 있다. 최근 경찰청 빅데이터 기반 범죄분석 프로그램 ‘클루’(CLUE)를 만들었다. 범죄이론부터 경찰 내 수사 기록물 등 공공 데이터를 분석해 범죄가 일어날 확률을 예측하는 모델이다. 절도·강간·살인 등 15개 중범죄가 지역별로 얼마나 발생할지 예측하고 도식화한다. 범죄 예방에 도움을 줄 수 있는 프로젝트다.”

출처: 한국고용정보원 유튜브 캡처
2016년 데이터분석 자격검정시험이 국가공인시험으로 인정받았다.

-빅데이터란 무엇인가.


“데이터는 형태에 따라 정형·비정형·반정형 데이터로 나눌 수 있다. 정형 데이터는 엑셀 파일처럼 통계 분석에 바로 쓸 수 있는 가공 데이터다. 메일 등 통신 내용의 기록을 말하는 로그가 반정형 데이터다. 형태가 있지만 연산이 불가능하다. 비정형 데이터는 형태도 없고 연산도 불가능하다. 인터넷 댓글이나 영상·음성 등이 비정형 데이터에 속한다.


이들 세 가지 데이터가 빅데이터를 구성한다. 빅데이터를 정의하는 키워드는 용량(volume)·다양성(variety)·속도(velocity) 등 세 가지다. 먼저 데이터 양이 많아야 한다. 보통 10페타바이트(1만240테라바이트)를 기준으로 본다. 두 번째는 다양성이다. 정형 데이터만 다뤘던 예전과 달리 이제는 비정형·반정형 데이터까지 다룬다. 급증하는 데이터를 빠르게 데이터를 분석할 수 있는 속도도 중요하다.”

출처: 조선DB
지난 9월 경기도 판교에서 자율주행차 '제로셔틀'이 운전자 없이 달리고 있다.

-빅데이터로 어떤 일들을 할 수 있나.


“지금까지 사람이 했던 모든 일은 빅데이터를 활용한 인공지능으로 대체할 수 있다. 펀드매니저를 예로 들 수 있다. 그들은 투자자와 같은 인간이다. 낮에 일하고 밤에 잔다. 그런데 알고리즘과 빅데이터로 자산 관리를 해주는 ‘로보어드바이저’는 24시간 데이터를 수집한다. 속도와 정확성을 무기로 투자 성과를 낸다. 미국은 이미 수년 전부터 자산 관리에 로보어드바이저를 활용하고 있다.


2019년 1월 현재 빅데이터 기반 인공지능 기술 상용화 수준은 10% 미만이다. 머신러닝과 딥러닝으로 인공지능 기술을 구현한다. 머신러닝은 컴퓨터가 데이터를 통해 스스로 학습하고 미래를 예측하는 기술이다. 딥러닝은 컴퓨터가 사람처럼 생각하고 배울 수 있도록 만든다. 이들 기술에 다양한 알고리즘이 더해지면 완벽한 수준의 인공지능을 구현할 수 있다.”

출처: 조선DB
지난 2016년 3월 이세돌은 구글 딥마인드가 개발한 인공지능 컴퓨터 바둑 프로그램 '알파고'에 4:1로 패했다.

-개인정보 유출을 걱정하는 사람도 있는데.


“2011년 9월 시행한 개인정보보호법이 있다. 당사자 동의 없이는 개인정보를 수집하거나 제3자에게 제공할 수 없다. 데이터를 분석할 때 해킹을 통해 개인정보를 수집하는 게 아니다. 누구나 볼 수 있는 공문서를 수집한다. 블로그·카페 등에 올린 게시글이나 기사 댓글은 주소(url)만 있으면 누구나 볼 수 있다. 이 같은 게시물은 ‘크롤링’(crawling)을 통해 수집한다. 컴퓨터가 무수히 많은 문서를 수집해 자동으로 중요한 정보를 캡처하는 기술이다.”


-데이터 사이언티스트에게 필요한 자질은.


“데이터 사이언스의 기본은 수학과 통계다. 컴퓨터 활용 능력도 필요하다. 데이터 분석을 할 때 R·파이썬 등 프로그래밍 언어를 다루기 때문이다. 수학·통계학이나 컴퓨터 관련 전공을 선택하는 게 유리하다. 경영·산업공학 지식 등 산업 현장에 대한 이해력도 있어야 한다.


데이터 사이언티스트가 혼자 컴퓨터 앞에 앉아 소프트웨어 개발이나 프로그래밍만 한다고 생각하는 사람이 있다. 데이터 분석 결과를 발표할 때는 프레젠테이션도 해야 한다. 활발한 커뮤니케이션 능력이 필수다.”

본인 제공

-데이터 사이언티스트의 수입은 어떤가.


“상당히 높은 편이다. 보통 회사에서 데이터 사이언티스트를 뽑으면 석·박사 출신을 채용한다. 석·박사 기준 3~5년 실무 경험이 있으면 업계에서 인정해준다. 이들은 억대 연봉을 받을 수 있다. 학사 출신이면 여기에 2~3년 경력이 더 필요하다.”


-앞으로 하고 싶은 일이 있다면.


“이쪽 업계에서는 나이가 적은 편이 아니다. 개인적인 성취보다 후학 양성에 욕심이 있다. 지금 업계에 인력이 부족하다. 데이터 사이언스를 아는 사람도 많지 않다. 능력 있는 후배들이 빨리 업계로 나와 산업을 이끌어줬으면 좋겠다.”


글 jobsN 송영조 인턴

jobarajob@naver.com

잡스엔

이 콘텐츠에 대해 어떻게 생각하시나요?