HWP·PDF로 어떻게 데이터저널리즘을 하나

조회수 2017. 12. 6. 16:34 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

공개한 데이터 양이 중요한 게 아니다.

행정안전부와 오픈데이터포럼은 12월5일 ‘2017 모두의 오픈데이터 포럼’을 개최하고 오픈데이터가 사회의 각 부문에서 어떻게 활용될 수 있는지 논의를 열었다. 포럼 2번째 세션에서는 ‘데이터저널리즘과 오픈데이터’라는 주제로 공공데이터와 저널리즘의 현재와 향후 활성화 방안을 모색했다. 패널로 참석한 강정수 메디아티 대표는 “오픈데이터, 오픈소스의 맥락에서 한국사회를 보면 저는 두 가지를 공공의 적이라고 생각한다”라며 “디비피아와 한글과컴퓨터를 버리겠다는 결의가 없는 오픈데이터는 쇼다”라고 강하게 비판했다.

사회를 맡은 최진순 <한국경제신문> 차장, 패널로 나선 권혜진 <뉴스타파> 데이터저널리즘 연구소장, 강정수 메디아티 대표

양만 많으면 어디에 써먹나


국가에서 운영하는 공공데이터 포털 등의 서비스는 방대한 데이터를 보유하고 있다. 전부 다 ‘공공데이터법’에 의해 공개된 자료들이다. ‘국민의 공공데이터에 대한 이용권을 보장하고, 공공데이터의 민간 활용을 통한 삶의 질 향상과 국민경제 발전에 이바지(제1조)’하기 위한 공공데이터는 활용이라는 취지에 무색하게 그 품질이 심각하게 낮다. 문제는 양이 아니다. 공개된 자료의 품질이다. 대략 다음과 같은 문제가 있다. 

  • 기관별로 제각각인 개방 규칙 
  • 기준 없이 같은 종류의 데이터를 제각각의 형식으로 저장
  • HWP파일 등 활용하기 어려운 포맷
  • 알기 어려운 업데이트 주기
☞ 참고 : 공공데이터? 꿰어야 구슬이지!
(쓰라고 공개한 데이터인가)

이날 세션에 패널로 참석한 권혜진 <뉴스타파> 데이터저널리즘 연구소장은 “공공데이터가 양적으로 늘어난 것은 사실이나 저널리즘에서 활용하는 예민한 데이터는 공개율이 낮거나 불편한 형태로 공개되고 있다”라고 지적했다. 예컨대 <뉴스타파>에서 주기적으로 정리하고 있는 고위공직자 재산정보는 PDF로 확인할 수 있다. PDF 파일을 정리하려면 전용 판독 프로그램도 쓰지만 기본적으로는 ‘단순노동’이다. 기계가 읽기 좋은 형식이 아니기 때문이다. 아르바이트도 쓰는 등 수작업으로 데이터를 옮겨야 한다. 형식도 문제다. 권혜진 소장은 “데이터를 분석하려면 한 셀이 하나의 값을 가져야 하는데 ‘득표수(000)’ 같은 형식으로 돼 있는 경우도 많다 보니 정제해서 처리해야 한다”라며 “10년 전과 바뀐 게 없다”라고 말했다. 검색 노출 문제도 있다. 포털에서 검색도 잘 안 되고, 내부 사이트에서도 검색 기능이 형편없는 수준이라서 충분한 데이터를 찾아주지 못한다.

(그래도 해야지 어쩌겠어)

쭉정이 데이터, 공개하면 뭐하나


강정수 대표도 정부의 데이터 공개 현황에 부정적인 견해를 드러냈다. 강정수 대표는 “데이터야 많지만, 핵심 데이터가 없다”라며 “시스템은 엉터리인데 ‘데이터 몇만 건 공개’이런 건 다 허구다”라고 말했다. 또한 “HWP, PDF를 가져다 쓰라면 저널리스트는 커녕 개발자도 못한다”라며 개선이 없는 현실을 지적했다. 공공데이터의 현저하게 낮은 접근성이 공공데이터 활용방안의 성장을 막는다는 비판이다. HWP 파일도 PDF 처럼 데이터 활용에 유리한 구조화된 데이터 파일이 아니기 때문에 살펴보기 위해서는 가공하는 작업이 필수다.


민감 데이터의 낮은 공개율에 대한 지적도 있었다. 정보공개청구 제도 자체는 잘 돼 있지만, 민감할 것으로 예상하는 데이터의 경우 정부에서 공개를 안 하려고 하거나 제대로 공개를 안 한다. 이런 문제점은 정보공개청구를 해 보면 바로 와 닿는다. 청구한 이후에는 해당 기관의 공무원으로부터 ‘뭐 하시는 분인데 이 정보가 왜 필요하시냐’라는 전화를 심심찮게 받을 수 있다. 정보공개법은 국민의 알권리를 보장하는 데 목적이 있다. 정보공개를 청구한 사람은 정보공개의 목적을 담당 공무원에게 설명할 의무가 전혀 없는데도, 정부에서 공개된 데이터로 인해 문제가 생길까 봐 비협조적으로 구는 셈이다. 


강정수 대표는 “서울에서 어디가 자전거 타기 좋은 곳인지는 안 궁금하다. 어디서 사고 나는지가 중요하다”라며 “민감한 데이터 공개를 꺼리는 게 이해는 되지만, 데이터 공개는 문책하기 위한 게 아니라 (사회의) 개선을 위해서 필요하다”라고 정부의 건설적인 공공데이터 공개 방향 설정이 필요함을 강조했다.

(탓하자는게 아니니까 문제를 찾아보아요)
이 콘텐츠에 대해 어떻게 생각하시나요?