본문 바로가기

댓글0
번역beta

Translated by kakao i

번역할 언어 선택

뷰 본문

테크플러스

48년 만에 말한 "고맙고 사랑해" 어떻게 가능했나

428 읽음
댓글0
번역beta

Translated by kakao i

번역할 언어 선택

"엄마 나 걱정하지 마세요"

"언니 너무 고마워요"

"우리 딸 엄마가 미안해"

"우리 왕자님 건강하게 잘 자라줘서 고맙고 사랑해"

이 말을 하는 데 48년이 걸렸다. 가족에게 일상처럼 전할 수 있는 말이지만 반드시 그렇지는 않다. 가족에게 고맙고 사랑하는 마음은 변치 않았다. 그러나 수단이 마땅하지 않았다. 태어날 때부터 청각을 잃고 말을 하지 못하는 농아인을 삶을 산 김소희 씨의 이야기다.

"목소리를 하나 더 갖고 싶어요" 수십 년간 김소희 씨 곁에서 단짝처럼 지내온 언니 김미경 씨. 그는 어릴 적 소원이 뭐냐고 묻을 때 항상 이렇게 말했다. 앙케트 조사에서도 가장 갖고 싶은 걸 써보라고 할 때도 언제나 '목소리'라고 답했다. 목소리가 하나 더 있으면 듣지도 말하지도 못하는 동생에게 줄 수 있다고 생각했다.

김소희씨의 어머니와 자식들도 마찬가지다. 어머니는 김소희씨가 안쓰럽고 걱정이 됐다. 아이들과도 소통하는데 불편함이 없지 않았다.

기적이 아니면 힘들 것 같았던 언니의 소망. 그리고 가족의 염원은 결국 현실이 됐다. KT는 최근 김소희 씨의 목소리를 새롭게 만드는 과정을 영상으로 담아 '마음을 담다' 첫 번째 캠페인을 세상에 공개했다.

김소희 씨가 가족들에게 꼭 하고 싶은 말은 어떻게 가능했을까. 기적 대신 '인공지능(AI) 음성 합성 '기술'이 소망을 현실로 바꿨다. 박정석 KT AI 보이스 제너레이션 팀장에게서 김소희 씨에게 목소리를 전해주는 과정을 들었다.

박정석 KT AI 보이스 제너레이션 팀장

KT는 2016년 AI 보이스 제너레이션 팀을 출범시켰다. KT 융합기술원 산하다. 축적한 음성 데이터를 기반으로 새로운 목소리나 지금껏 말하지 않았던 음성을 합성해 내보내는 기술을 연구한다. 기존 기계적 음성 합성은 녹음된 음성에서 자음과 모음을 모두 분절하고 이를 다시 섞는 형태로 이뤄졌다. 아날로그적인 방식과 유사하게 합성하다 보니 듣는 사람에겐 어색하게 느껴진다.

KT AI 보이스 제너레이션 팀은 AI 기술을 이용한다. 기존 녹음한 모델링 샘플에 녹음 음성을 넣고 이를 데이터베이스(DB)화한다. 이 데이터에서 목소리와 가장 유사한 소리를 낼 수 있도록 정보 값을 합성하는데, 여기에 AI 기술이 들어간다.

'소리'라는 음성을 녹음했다고 가정해보자. 텍스트로 보면 'ㅅ' 'ㅗ' 'ㄹ' 'ㅣ' 등 4개의 자음과 모음 순서로 이뤄진다. 이를 디지털 값으로 샘플링한다. 각 2바이트씩의 데이터가 재합성돼 다시 발화하는데 1초에 2만4000개 값이 필요하다.

이후 '소리'라는 글자를 입력해 '소리'라는 음성으로 나오게 하려면 기존 축적한 데이터에서 적합한 값을 찾고 이를 2만4000개로 재 필터링해야 한다. 쌓인 데이터가 많을수록, AI가 훈련을 많이 할수록 보다 자연스럽고 정확한 음성이 나온다.

처음부터 지금과 같은 음성 합성이 가능했던 것 아니다. 일련의 과정으로 기술과 데이터를 축적했다. 2018년 KT AI 스피커 기가 지니를 통해 '박명수를 이겨라'라는 서비스를 진행한 적 있다. 박명수 씨의 목소리를 녹음해 데이터를 수집하고 이를 통해 박명수 씨가 녹음하지 않았던 새로운 목소리를 만드는 '개인화 음성합성 기술(P-TTS)'을 활용한 서비스다. 어떤 문장을 입력해도 박명수 씨의 목소리로 들을 수 있다.

이후 KT는 모 방송국 요청으로 이제는 돌아가신 독립 유공자 2분의 목소리도 합성했다. 방송사가 가지고 있던 짧은 음성 데이터를 토대로 독립 유공자의 새로운 목소리를 합성한 것이다.

특정 인물의 목소리를 새로 합성하는데 그치지 않았다. 박정석 팀장은 "이후 일반인의 목소리를 합성해보면 어떻겠느냐는 아이디어가 나왔고, 이후 수백 명의 사람 목소리를 녹음해 AI가 훈련할 수 있는 기반을 만들었다"라고 말했다. 그 결과 모델링 샘플이 만들어졌다. 이는 김소희 씨의 목소리를 탄생시키는데 핵심적 역할을 하게 된다.

수백 명의 음성으로 축적한 모델링 샘플을 통해 어느 정도 DB를 축적한 KT는 말을 하지 못하는 사람에게도 목소리를 낼 수 있게 할 수 있는지 연구했다. 국민 개개인이 더 나은 삶을 누릴 수 있도록 KT 기술을 적극 활용해보자는 의지가 담겼다. 그리고 그 의지는 김소희 씨에게 전달됐다.

지금까지 없었던 목소리를 만들어내는 것. 이제부터는 '추론'이 중요해진다. 이미 확보한 데이터에서 나이와 성별, 키와 몸무게 등 정보를 연계해 새로운 목소리를 예측하는 것이다. 가령 40대 여성의 이러한 신체적 특징을 가지고 있다면 특정 목소리로 나올 것이라고 추론하는 것이다.

이 추론은 AI가 음성 정보 값이 서로 연결된 뉴럴 네트워크를 통해 수행한다. 단순 음소 정보 값만 아니라 음의 높이, 변화, 주파수 등 수많은 데이터가 서로 연결돼 있다. 이 중 최적의 값을 추론하고 합성해야 한다.

다시 김소희 씨로 돌아가 보자. 김소희 씨의 목소리를 되찾아주기 위해서는 원천 데이터가 필요하다. 수백 명의 모델링 샘플은 일종의 엔진이다. 여기에 들어갈 기본값이 필요한 것이다.

김소희 씨 목소리 원천은 '가족'이었다. 앞서 박명수 씨의 목소리를 합성하기 위해 박명수 씨 본인이 녹음을 했다. 하지만 김소희 씨는 본인의 목소리를 낼 수 없었다. 그래서 가족이 필요했다. 김소희 씨의 어머니, 딸, 그리고 언니가 녹음에 참여했다. 가족의 목소리는 김소희 씨의 목소리를 '추론'할 수 있는 유사 데이터다.

다음은 김소희 씨의 구강 구조를 분석한다. 사람 목소리를 결정하는 요소 중 하나가 바로 구강 구조다. 입의 크기. 위치. 얼굴 형태, 목과 성대의 길이 등을 이미지 인식 처리한다. 앞서 수백 명의 모델링 샘플을 통해 김소희 씨의 구강 구조로 나올 수 있는 소리를 1차적으로 추론한다. 거기에 가족의 음성 데이터를 곁들인다.

가족마다 30분에서 1시간씩 준비해 둔 텍스트를 읽으며 음성 데이터를 취합했다. 새로운 음성을 합성하기에는 짧은 시간이다. 합성에 활용할 데이터가 부족했지만, KT의 알고리즘 기술로 대응했다. 이번 프로젝트의 관건은 얼마나 적은 데이터로 얼마나 빨리 음성을 합성하느냐다.

박정석 팀장은 "가족 가운데 김소희 씨와 가장 유사한 데이터 값으로 추론할 수 있었던 대상은 언니였다"면서 "최종적으로 김소희 씨 목소리는 언니 음성의 70%, 어머니 40%, 딸 40%가 섞여 구현된 것이라고 볼 수 있다"라고 말했다. 나이 대 등을 고려해 김소희 씨의 신체적 특정과 가장 비슷한 언니의 음성이 가장 많이 녹아들었다. 딸은 어려 아직 다량의 데이터를 인용하는 데 한계가 있다.

결국 소망대로 언니는 동생에게 목소리를 나눠줄 수 있었다. 박정석 팀장은 이를 '장기기증'과 유사하다고 했다. 하지만 장기처럼 떼어 내주지 않아도 목소리는 그대로 남으니 '나눔'이 더 정확하다고 표현했다. 이러한 기술과 가족의 노력이 48년 만에 김소희 씨에게 기적을 가져다줬다.

KT는 김소희 씨에게 목소리를 드릴 수 있어 자부심을 느꼈다. 그러나 자만하지는 않았다. 아직 진정한 음성 합성 기술에 도달하려면 갈 길이 멀다는 이유에서다. 김소희 씨 목소리를 실제 들어본 적이 없지만, 박정석 팀장은 이번 결과물의 완성도는 "95%"라고 말했다. 매우 높은 수치 같지만 100%에 미치지 못한 이 5%가 듣는 사람에게는 큰 차이로 느껴질 수 있다고 했다.

KT의 음성 합성 기술 개발은 '현재 진행형'이다. 향후 음성 합성 서버 인프라를 확충하고 AI 기술도 고도화해야 한다. 김소희 씨가 스마트폰에 텍스트를 입력하고 다시 스마트폰으로 목소리가 나오기 위해서는 KT 음성 합성 서버와 연결돼야 한다. 일종의 클라우드 방식이다. 이 인프라를 확충해야 김소희 씨 사례를 다수에게 확대할 수 있다. 추가적인 서비스도 제공할 수 있다.

그리고 남은 5%를 0%로 만드는 기술 개선도 필요하다. 음성 합성의 완성도가 보다 높아져야 하기 때문이다. 보다 사람과 같은 음성 서비스를 통해 청자에게 어색하지 않은 목소리를 전달해야 한다. KT가 지금부터 풀어 나가야 할 숙제와 같다.

기술은 인간성이 결여됐다고들 한다. 하지만 김소희 씨와 KT 사례를 보면 반드시 그러하진 않은 것 같다. 기술은 얼마든지 인간의 부족함을 보완해 줄 수 있다. 이번 과정을 통해 증명됐다. 김소희 씨의 목소리를 처음으로 들은 가족은 결국 눈물을 흘렸다. 우리도 가족에게 전해야 할 말을 할 시기다. 기술의 도움을 받지 않고도 할 수 있으면 당장 자신의 목소리를 낼 필요가 있다. "고맙고 사랑해"

테크플러스 에디터 권동준

tech-plus@naver.com

작성자 정보

테크플러스

    실시간 인기

      번역중 Now in translation
      잠시 후 다시 시도해 주세요 Please try again in a moment