아산병원은 왜 '빅데이터센터'를 지었을까?
서울아산병원이 지난 1월 ‘헬스 이노베이션 빅데이터센터’를 지었습니다. 임상연구, 의료기기 개발과 진료, 병원 경영 등 병원에서 발생하는 수많은 자료를 수집하고, 분석하기 위해섭니다.
병원엔 데이터가 참 많습니다. 우선, 진료 정보가 있습니다. 병원정보시스템(EMR)에서 나오는 정보로, 흔히 ‘오더’라고 부릅니다. 오더는 환자 처치가 어떻게 이뤄졌는지를 기록한 일종의 전자차트인데요, 방문날짜, 얼마나 자주 왔는지, 주소 정보, 해당 처치를 맡은 의사 정보, 병원 관리자 등 다양한 정보가 적혀 있습니다. 이 외에도 각종 의료 연구와 임상시험을 진행하고, 논문을 작성할 때도 데이터가 발생합니다.
서울아산병원만 해도 익명화된 의료 데이터 양이 2015년을 기준, 환자 430만명, 오더 정보는 6억건, 처방전은 2억3천만건, 실험 연구 결과 정보는 10억건이 넘습니다. 진료 노트는 4억8300만건 이상입니다. 데이터 보물창고라고 할 수 있죠.
수많은 데이터 '비식별화 작업'이 우선
김영학 서울아산병원 헬스이노베이션 빅데이터센터 소장 겸 심장내과 교수 설명에 따르면, 수년 전 빅데이터 분석이 뜰 때, 제조업체 못지않게 의료업계도 많은 주목을 받았다고 합니다. 진료 정보엔 영상부터 음성, 텍스트 등 다양한 형태의 데이터가 존재했기 때문입니다. CT, MRI, 엑스레이에서 얻을 수 있는 의료 영상정보부터 시작해서 위내시경, 안저검사, 조직검사, 뇌질환자 생체 실험 정보, 뇌파 영상데이터 등 정말 다양한 형식의 데이터가 존재합니다.
이 데이터를 분석했을 때 얻을 수 있는 가치와 가능성을 의심하는 이는 없었습니다. 문제는 이 데이터를 어떻게 활용할 것이냐 입니다. 의료 데이터엔 데이터만 있는 게 아니라, 사람이 있습니다.
의료 데이터엔 민감한 정보가 많습니다. 의료 질을 높인다는 대의를 핑계 삼아 함부로 데이터를 활용할 수 없습니다. 병원 내 데이터를 외부로 함께 공개할 수도, 공유할 수도, 환자 정보가 고스란히 담긴 내용을 바탕으로 분석할 수도 없습니다.
서울아산병원 빅데이터센터 교수진은 무수히 많은 데이터 중에서 정작 활용해서 쓸 수 있는 데이터가 무엇인지 파악하는 작업부터 거쳤다고 합니. 여러 데이터를 조합해서 환자 개인 정보를 알아낼 수 없도록 비식별화 작업을 수차례 진행했습니다.
이렇게 만들어진 비식별화된 데이터를 병원 외부로 내놓지 않으면서 확인할 방법을 고민했습니다. 분석 편의성과 관리 편의성을 위해 클라우드를 택했습니다. 프라이빗 클라우드 환경을 구축해서, 병원 클라우드 안에서만 데이터를 분석하고 작업하는 환경을 만들었습니다. 병원 업계 최초입니다.
김영학 교수는 예전부터 의료 데이터 활용법에 관심이 많았다고 합니다. 인공지능을 활용한 진료 개념, AI 메디슨은 1980년대 나왔습니다. 데이터를 활용해서 환자에게 처방한 약을 검토하는 ‘디시전 서포트’ 기술도 눈여겨봤던 터였고요.
서울아산병원은 클라우드에 올려놓은 비식별화된 의료 데이터를 활용할 다른 방법은 없는지 고민했습니다. 이 고민은 외부로부터 아이디어를 받아보는 것도 나쁘지 않겠다는 생각으로 이어졌습니다. 데이터를 처리하는 공간을 클라우드 안으로만 한정하면, 데이터가 유출될 걱정도 없을 터였습니다.
의료 빅데이터 분석 컨테스트 열어
빅데이터센터 설립과 함께 서울아산병원은 지난 1월 한국마이크로소프트와 손을 잡고 ‘의료 빅데이터 분석 컨테스트’를 준비했습니다. 김영학 소장이 앞장서고, 심우현 서울아산병원 헬스이노베이션 빅데이터센터 조교수가 뒤를 따랐습니다.
필요한 데이터 비식별화 과정은 심우현 조교수가 맡았습니다. 컨테스트 준비를 위해 어떤 주제로 아이디어를 받으면 좋을지 병원 안에서 의견을 수렴했습니다. 의료 영상, 생체신호, 진료정보 등 의료 관련 빅데이터 과제를 정하고, 이 과제를 클라우드 안에서 어떻게 처리할지 고민했습니다.
비식별화한 데이터가 어떤 의료 데이터와 연결 고리가 있는지 설명하는 일도 심우현 조교수 몫이었습니다. 단순히 데이터만 제공한다고 해서 아이디어가 나오는 게 아닙니다. 쌓아놓은 데이터가 어떤 의미를 가졌는지를 전달해야 했습니다. 어느 정도 지식 수준이 있어야 데이터 분석을 할 수 있기 때문이다. 단순히 비식별화된 영상정보만으로는 가치를 만들 수 없습니다.
컨테스트에 다양한 아이디어가 등장했습니다. 진료 시간을 단축하는 방법부터 시작해서, 발병 예측, 진료비를 줄일 방법까지 나왔다. 이 과정에서 서울아산병원은 MS 애저 클라우드에서 가상머신(VM) 1500코어, 저장공간으로 150테라바이트(TB)를 사용했다. 모두 비식별화 데이터를 이용했다.
여기 뇌전증 환자가 있다. 뇌전증 환자는 주로 몸을 떨면서 발작을 일으킵니다. 이때, 어느 위치에서 뇌전증을 일으키는지를 알면, 수술로 해결할 수 있습니다. 병원에서는 이 부위를 찾기 위해 뇌파에 센서를 부착해서 며칠 관찰합니다. 뇌전증이 일어날 때 부위가 어디인지 찾습니다. 이 결과를 바탕으로 수술 부위를 최소화하는 게 목표입니다.
의료 데이터를 활용하면, 수집한 데이터를 바탕으로 발작이 일어나기 전에 미리 발생 부위에 신호나 자극을 줘서 예방할 수 있습니다. 뇌전증이 일어나기 전에, 일어날 것만 같은 부위를 수집한 데이터를 바탕으로 예측해 뇌전증을 치료할 수 있습니다.
치매 분야에서도 활용할 수 있습니다. 치매를 가진 사람 데이터를 모아 평균 연령 대비 몇 퍼센트 확률로 치매를 예측하는 식입니다. 뇌실, 해마 크기 데이터를 바탕으로 정량적 수치로 환자의 치매 발병 확률을 예측할 수 있습니다. 지금 의료 기술로는 6-10시간 걸리는 작업이었습니다. 그러나 다양한 데이터 분석 기술을 이용하면 몇 분 안에 우리나라 평균 연령 대비 해마와 뇌실 크기를 언급하면서, 치매 가능성을 보여줄 수 있습니다.
유방암 조직 검사 방법 중 ‘ ncoTypeDX’라는 고비용 검사가 있다. 이번 컨테스트에선 이 검사 없이도, 이 검사를 한 것과 같은 예측 결과를 보여주는 아이디어도 나왔다. 유방암 조직 검사에 필요한 비용을 줄일 수 있을지도 모른다.