"데이터와 네트워크를 함께 생각하라"

조회수 2017. 11. 22. 12:54 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

새로운 가치는 연결에서 나온다

“데이터와 네트워크를 함께 생각하라. 새로운 가치는 연결에서 나온다.”

11월17일 열린 ‘2017 체인지온’ 행사에서 정하웅 카이스트 지정석좌 교수가 던진 메시지다. ‘구글 신은 모든 것을 알고 있다’를 쓴 3명의 저자 중 한 명인 정하웅 교수는 데이터와 네트워크, 두 분야의 전문가다.

정하웅 카이스트 지정석좌 교수

데이터의 가치 : 차별과 편견의 가시화


정하웅 교수는 데이터의 가치는 사람들이 갖는 무의식적 차별과 편견을 고스란히 보여줘, 이에 대한 경감심을 일깨워주는 데 있다고 설명했다. 


빅데이터는 사람들의 생각을 투명하게 반영한다. 검색 데이터를 예로 들어보자. 사람들은 평소 다른 사람과 이야기하거나 설문에 응할 때 크고 작은 거짓말을 한다. 하지만 컴퓨터 앞에 앉아 자신이 찾고자 하는 정보를 검색할 때는 한없이 솔직해진다. 정하웅 교수는 “우리는 혼자일 때, 그리고 온라인에서 활동할 때, 또 이득이 있을 때 가장 솔직해진다”라며 “이 모든 걸 충족하는 때가 무언가를 검색할 때”라고 말했다. 


사람들의 솔직한 생각이 담긴 검색 데이터는 사람들이 가진 차별과 편견이 적나라하게 드러나게 한다. 불편한 진실의 발견이다. 정하웅 교수가 예로 든 검색 데이터에 드러난 차별과 편견은 ‘부모의 무의식적 차별’이다. 구글 검색창에 ‘우리 두 살짜리 아이가(Is my two-year-old)’로 시작하는 검색어 중 부모들이 가장 많이 찾는 검색어는 ‘천재인가(gifted?)’이다. 두 살 자녀를 둔 부모들이 가장 궁금해하는 게 ‘혹시 우리 아이가 천재는 아닐까?’라는 걸 보여준다. 


그런데 이 궁금증의 정도는 자녀의 성별에 따라 현저한 차이를 보였다. ‘우리 아들이 천재는 아닐까?’를 검색한 횟수는 ‘우리 딸이 천재는 아닐까?’를 검색한 횟수보다 2.5배 더 많다. 


혹시 남자아이들이 여자아이들보다 더 똑똑한 특징을 나타내는 건 아닐까? 정하웅 교수는 “영재 프로그램에 참여하는 아이들의 성비를 보면, 여학생이 남학생보다 9% 더 많다”라며 “남자아이들이 여자아이들보다 더 똑똑하기 때문에 검색 횟수의 차이가 생긴 것이 아니다”라고 말했다. 


그렇다면 딸에 대한 무관심일까? 정하웅 교수는 “‘우리 딸이 비만인가요?’라는 검색어는 ‘우리 아들이 비만인가요?’보다 2배 이상 더 검색됐다”라고 말했다. 딸에 대한 무관심이라기보다는 아들과 딸에게 보이는 관심의 각도가 다르다는 것이다. 정하웅 교수는 “혹시 딸들이 실제로 더 뚱뚱해서 그런 건 아닐까 하는 의문을 가질 수 있는데, 통계에 따르면 남자아이들의 35%가 비만 판정을 받았을 때 여자아이들은 이보다 7%p 낮은 28%만 비만 판정을 받았다”라고 말했다. 또 “‘우리 딸은 예쁜가요?’ 검색 횟수는 ‘우리 아들은 잘생겼나요?’보다 1.5배 이상 많다”라고 덧붙였다.


이같이 검색 데이터는 부모가 자녀의 성별에 따라 무의식적 차별을 하고 있다는 것을 고스란히 보여준다. 아들에게는 뛰어난 지적 능력을, 딸에게는 뛰어난 외모를 기대하는 것이다. 정하웅 교수는 “이러한 무의식적 편견은 정치·문화적 성향과 상관없이 광범위하게 존재한다”라고 설명했다.

데이터와 네트워크 : 데이터는 묶어 볼 때 정확하다

데이터를 더 가치 있게 사용하는 방법은 다른 데이터와 묶어서 분석하는 것이다. 네트워크, 연결의 중요성이 여기에서 등장한다.

정하웅 교수는 ‘SNS상에서의 루머와 정보전파의 차이점’을 들어 데이터와 네트워크의 시너지 효과를 보여주었다.

2006년부터 2009년 사이 미국 트위터에서 광범위하게 전파된 100여개 게시물을 조사한 결과, 정보의 진위여부를 90% 이상 판단할 수 있었다. 루머와 일반 정보가 퍼지는 양태가 상이하기 때문이다. 루머는 일반 정보보다 ①지속해서 전파되는 경향이 있고 ②서로 연관 없는 임의 사용자들의 산발적 참여로 전파되고 ③인지도가 낮은 사용자들로부터 시작돼 유명인에게로 전파되며 ④’아니다’, ‘사실인지는 모르겠지만’, ‘확실치는 않지만’, ‘내 생각에는’, ‘잘 기억나진 않지만’ 등 표현이 많이 사용되는 특징을 보였다.

루머의 정보전파와 일반 정보의 정보전파 양태를 도식화해 비교하면 두 그림이 매우 다르다.

정하웅 교수는 “전파 초기에는 어렵지만, 정보가 어느 정도 확산된 경우라면 빅데이터 분석을 통해 정보의 진위여부를 판단할 수 있다”라고 말했다. 이어 “좋은 데이터들을 많이 붙이고 묶어, 좋은 통찰을 얻는 것이 중요하다”라고 강조했다.

이 콘텐츠에 대해 어떻게 생각하시나요?