그러니까, '데이터과학'이 뭔데?

조회수 2016. 1. 5. 12:40 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

메타마켓의 CEO 마이크 드리스콜은 다음과 같이 말했습니다.

“현실에서 보듯이 데이터과학은 레드불과 같은 각성 음료에 의지해 날밤을 새우는 해킹과, 에스프레소에 의해 영감을 받는 통계학의 혼합이다.”

데이터과학과 관련된 시장이 부쩍 주목을 받고 있습니다. 대기업에서도 데이터과학 부서를 설립하고 데이터 산업과 관련된 스타트업도 늘어나고 있습니다. 그런데 데이터과학이 뭘까요?

출처: 레드불, flickr, Anders.Bachmann. CC BY-SA.
'타겟'이라는 유통업체가 있습니다. 마트에서는 정기적으로 할인쿠폰북을 고객들에게 보냅니다. 어느 날 중년 남성이 화를 내면서 마트를 찾아왔습니다. “사장 나와!” 난리가 난 거죠. 알고 보니 이 남성에게는 고등학생 딸이 있는데, 마트에서 딸에게 임신용품 관련 할인 쿠폰을 보낸 겁니다.

마트가 잘못 보낸걸까요? 아닙니다. 결국, 아버지가 사과를 하고 돌아갈 수밖에 없었습니다. 딸은 임신한 게 맞았거든요. 아버지도 모르는 딸의 임신을 어떻게 마트가 알 수 있었을까요?

타겟의 데이터 과학자들은 향이 있는 로션을 쓰던 여성이, 향이 없는 로션으로 바꿀 경우 임신했을 확률이 높다는 걸 알아냈습니다. 그래서 로션 취향이 바뀐 사람에게 임신 관련 용품 쿠폰을 보내줬던 거죠.

‘데이터화’라고 합니다. 삶의 많은 기록이 인터넷과 온라인에 축적되고 있습니다. 의식하지 못하는 오프라인의 행동도 데이터화되고 있습니다. 무심결에 카드를 찍고 지하철을 타고 원하는 목적지의 도착해서 내리는 동안 나의 이동 거리, 나의 소비가 기록되는 것도 같은 맥락입니다. 카드 사용내역을 보면 제 입맛도 얼마든지 알아낼 수 있습니다.
출처: 데이터. r2hox, flickr, CC BY-SA.
이렇게 데이터화가 가속되고 있는 세상에서 데이터는 ‘데이터 상품’의 소재가 될 수 있습니다. 데이터 상품이란 데이터를 이용해서 만들어진 서비스를 말합니다. 데이터과학은 많은 양의 데이터에서 패턴을 찾아내 비즈니스 기회로 만들 수 있으므로 주목받고 있습니다.


다양한 기술이 필요한 데이터 과학


데이터과학은 복합적인 기술을 요구합니다. 수많은 데이터를 가져올 수 있어야 하고, 분석도 할 수 있어야 합니다. 양이 많아서 프로그래밍 능력이 있어야만 대규모의 데이터를 다룰 수 있습니다. 분석을 해야 하니 통계적인 지식도 필요합니다. 데이터가 이야기하고 있는 분야에 대한 내용적 전문성도 요구됩니다. 여기에 분석이나 결과를 내는 과정에서 시각화가 동반되는 경우도 많습니다. 데이터과학은 이런 다양한 영역의 접점에 있습니다.

출처: 드류 콘웨이의 데이터과학 벤다이어그램

꼭 전문가에게만 중요한 건 아니다!


자칫 문턱이 높게 느껴질 수 있지만, 꼭 전문가만의 영역은 아닙니다. 마케터, 기획자, 홍보담당자, 기자, 정책담당 공무원 등 다양한 직군에서 활용할 수 있습니다. 아주 깊은 수준의 데이터과학을 하기 위해서는 어느 정도 시간이 걸립니다. 비전문가는 이를 모두 알기는 어렵습니다. 그래서 데이터과학의 큰 개념들을 이해하고, 액셀이나 구글 애널리틱스 등 비교적 간편하게 사용할 수 있는 도구를 활용하면서 데이터과학을 시도할 수 있습니다.

이미지를 불러올 수 없습니다.
이 콘텐츠에 대해 어떻게 생각하시나요?