트럼프도 맞췄다, 기존 여론조사 불신에 등장한 '족집게'

조회수 2020. 9. 18. 09:56 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

여론조사는 못믿겠다.. "진짜 족집게는 빅데이터" ​

총선 코앞이지만… 기관마다 엇갈리는 설문 결과 때문에 ‘깜깜이 선거’

설문 전화엔 거짓말 해도 SNS엔 진심을 올린다…

새로운 여론조사 수단으로 빅데이터 분석 각광받아


40.9% VS 44.1%(4월4일), 47.9% VS 34.3%(4월5일). 서울의 한 지역구에서 하루 차이로 실시된 두 설문조사의 결과다. 4일 조사는 B후보가 3%포인트 차이로 승리를 거두는 예상인 반면, 5일 조사는 A후보의 압승을 점친다. 조사 기법이나 문항의 뉘앙스 등에 따라 조사 결과가 약간 다를 수는 있겠지만, 이 정도로 심하게 벌어지는 것은 이해하기 어렵다. 15일 총선 결과가 어떻게 나오든 두 여론조사기관 중 한 곳은 무척 창피할 것 같다. 어쩌면 두 기관 다 창피할 제3의 결과가 나올 수도 있으려나.


◇”응답률 한 자릿수 전화 설문조사의 시대는 끝났다”

서울의 한 여론조사기관에서 조사원들이 전화를 걸고 있다. /조선DB

설문조사가 시대적 소명을 다했다는 얘기가 나온다. 자꾸 틀려서다. 틀려도 아주 엉뚱하게 틀리다보니 ‘여론 조작’이란 비난을 받기도 한다. 여론조사기관들은 일정 수의 표본을 정하고, 응답자에게 전화를 걸어 의견을 묻는 식으로 조사를 진행한다. 인건비를 줄이기 위해 ARS(자동응답시스템)로 전화를 거는 업체들이 많은데, 이 경우 응답률은 한 자릿수다. 정치에 아주 관심이 많은 소수가 아니면 그냥 끊는다. 보이스피싱이나 광고 전화인 줄 오해하고 끊는 경우도 많다. 표본추출은 보통 RDD(임의걸기방식)로 진행되는 경우가 많다. 이렇게 선정된 표본이 실제 유권자를 얼마나 대표하는지도 확인이 어렵다. 조사기관들은 휴대전화와 집전화를 일정 비율 섞어서 표본을 구성하는데, 이 비율에 따라서도 결과가 판이해진다. 요컨대 무작위로 전화를 해 “어느 후보를 지지하냐”고 묻는 방식의 여론조사는 더 이상 현실에 맞지 않는다는 것이다.

2016년 미국 대선을 앞두고 힐러리 클린턴 후보의 우세를 점친 설문조사(위 사진). 그러나 결과는 도널드 트럼프 후보의 승리였다(아래 사진). /인터넷 화면 캡쳐

비단 한국만 그런 것도 아냐. 2016년 미국 대선에서도 주요 여론조사기관들은 대부분 민주당 힐러리 클린턴 후보의 승리를 점쳤었다. 정작 결과를 맞춘 것은 빅데이터를 통한 AI(인공지능)로 여론을 살핀 스타트업이었다. 스타트업 ‘제닉AI’가 만든 인공지능 프로그램 ‘모그IA’는 대선을 앞두고 페이스북, 트위터, 유튜브 등 SNS에서 수집한 2000만개의 데이터를 토대로 트럼프가 승리할 것이라고 내다봤다. 산지브 라이 대표는 “어떤 데이터도 버리거나 차별하지 않고 모두 축적해 분석하기 때문에 개발자의 의도나 편견이 개입될 여지도 없다”고 설명했다. 당시 한국의 빅데이터 전문가도 결과를 예측해 화제를 모았다. 우종필 세종대 경영대 교수는 선거 5일 전에 학교 홈페이지에 “트럼프가 승리할 것”이란 글을 올렸다. 온라인상 여러 지표들은 한결같이 트럼프 당선을 예측하고 있다는 것이다. SNS에서 트럼프 공식 계정 구독자는 힐러리 구독자보다 1.5배 이상 많았다. 구글에서 ‘트럼프에게 투표하라’(Vote Trump)는 내용의 검색 횟수는 클린턴(힐러리)에게 투표하라는 검색을 크게 압도했다.


◇유권자의 숨은 속내까지 읽는 빅데이터… “젊은층 시각을 과반영 할수도”

실제 이번 총선을 앞두고 일부 여론조사기관이나 연구소에선 빅데이터 요소를 대거 도입한 여론 분석을 진행하고 있다. SNS상에 올라온 주요 격전지 후보자에 대한 유권자의 평가글을 모아 분석을 하는 텍스트 마이닝(text mining) 기법 등이다. 유권자가 설문에 답하는 여론조사와는 달리 SNS 상에 드러난 유권자 감정을 직접 분석, 디지털 민심을 유추하는 것이다. ‘싫다’ ‘나쁘다’ 같은 부정 감성 연관어 비중이 높으면 당선이 어렵다고 보는 식이다.


빅데이터는 기존 여론조사가 살펴볼 수 없던 실시간 여론 변화 추이라던가 유권자들의 숨은 속마음을 읽어낼 수 있다는 장점이 있다. 하지만 한계도 명확하다. 인터넷을 활발하게 이용하는 연령대는 주로 젊은 세대다. 역시 전 연령대의 지지를 파악하기엔 부족한 측면이 있다.


글 jobsN 김충령

jobarajob@naver.com

잡스엔

이 콘텐츠에 대해 어떻게 생각하시나요?