구글이 60%밖에 못한 걸 어떻게..세계가 주목한 30대 한국인

조회수 2020. 9. 28. 10:21 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

"받아쓰기 인공지능 서비스 출시에 속기사들이 가장 먼저 달려온 이유는.."
액션파워 조홍식 이지화 공동대표
음성 받아써주는 서비스 다글로 출시
자체 개발한 기술로 정확도 최대 95%까지

“기자님도 지금 인터뷰 다 받아쓰고 있는데, 힘들지 않나. 컴퓨터가 알아서 소리를 듣고 글자를 입력해주면 얼마나 좋겠나.”


가장 빠르고 쉽게 메시지를 전할 수 있는 방법은 음성이다. 그러나 음성은 보관하기 불편하다는 단점이 있다. 녹음을 할 수 있지만 10분 이상 대화가 이어질 경우, 다시 듣기 번거롭다. 1시간짜리 녹음을 문자로 입력하려면 적어도 2~3시간 걸린다. 법원·종교계·방송국 등에선 이 일을 전문으로 하는 인력을 두고있다. 음성을 빼놓지 않고 기록하는 일은 중노동에 속한다.


액션파워 조홍식(36)·이지화(34) 공동대표는 이런 어려움을 해결하기 위해 나섰다. 음성을 텍스트로 변환해주는 인공지능 서비스 다글로를 지난 4월10일 출시했다. 30대 청년들이 용감하게 뛰어들 수 있었던 자신감은 액션파워가 지닌 기술력에서 나왔다. 총 8명의 팀원 중 6명이 서울대·연세대에서 컴퓨터공학을 전공한 고급 인력이다. 자체 개발한 AI음성인식 기술 정확도는 최대 95%에 달한다. 조홍식 대표는 “내부적으로 테스트해본 결과 구글이 지금까지 내놓은 음성인식 텍스트 변환 서비스는 60~70%대다”라고 했다.

출처: jobsN
왼쪽부터 조홍식·이지화 액션파워 대표.

액션파워는 작년 아마존이 주최한 ‘AWS AI startup challenge’에서 우수상을 수상했다. 수천만원에 이르는 아마존 서버를 무상으로 이용할 수 있다는 의미다. 네이버 계열사 벤처캐피털인 스프링캠프에서 투자를 받았다. 팁스(TIPS)가 자금을 지원하는 창업기업 중 하나다. 팁스는 세계시장을 선도할 기술 아이템을 가진 스타트업을 민간이 주도해 선발하는 프로그램이다. 벤처캐피털·기술 대기업 등으로 구성한 엑셀러레이터와 정부로부터 최대 10억원까지 지원받을 수 있다. 액션파워는 벤처업계가 주시하는 유망 스타트업이다. 


-창업 이전에 무슨 일을 했나.


(조홍식 대표·이하 조) “어릴 때부터 창업을 꿈꿨다. 서울대학교 지구환경시스템공학과 02학번으로 입학했다. 하지만 사회와 산업을 더 관찰하고 싶었다. 경영·경제학을 공부해야겠다고 생각했다. 군 전역 후 경제학부로 전과했다. 졸업한 다음 증권사에 입사했다. 맥쿼리·메릴린치·HSBC에서 주식 애널리스트로 근무했다.”


(이지화 대표·이하 이) “컴퓨터를 좋아했다. 부모님께선 장학재단을 만들어 어려운 아이들을 도와주고 싶어하셨다. 마음껏 공부할 수 있도록 말이다. 그 영향을 받은 것 같다. 돈을 벌어 누구나 기회를 누릴 수 있도록 지원해주는 사람을 꿈꿨다. 공부를 열심히 해야하는 동기로 삼았다. 서울대 전기공학부 학사·컴퓨터공학부 석박사 과정을 수료했다. 이후 스탠포드연구소(SRI·Stanford Research Institute)에 있었다. 2015년 한국에 들어와 조홍식 선배를 만나 사업을 논의했다. 선배와는 대학 합창 동아리에서 만나 오랫동안 인연을 맺어왔다.”


-합창동아리였어서 음성인식 기술에 대한 관심이 많았나. 왜 이렇게 어려운 서비스를 사업 아이템으로 택했는지


(조) “음악에 관심이 많았던 것은 아니다. 다만 증권사 애널리스트로 일하며 알아서 내 말을 받아써주는 서비스가 있으면 좋겠다고 생각했다. 애널리스트는 시장정보를 분석해 투자 종목을 연구한다. 예를 들어 네이버 주가가 올라갈 것 같은 징후를 포착한다. 관련 업체들에게 전화를 걸고 미팅을 가진다. ‘이런 이벤트가 있을 것 같다, 투자 시 다음과 같은 리스크를 동반한다’ 등의 말을 한다. 문제는 이 같은 수고가 다 휘발성이라는 것이다. 미팅에서 나온 녹음자료를 듣고 보고서를 작성하는 일이 너무 힘들었다.”


(이) “음향기기에 관심이 많았다. 합창단 공연을 정기적으로 하다 보니 믹싱·마스터링을 할 수 있었다. 대학시절 프리랜서 음향 엔지니어로 일해 용돈을 벌었다. 조 대표와 사업 아이템을 논의할 때 진입장벽이 높은 서비스를 만들어보자는 게 공통적 의견이었다. 인공지능 스피커나 음악 검색 서비스는 이미 시장에 나와있었다. 일상적 영역 말고 사무영역에 특화한 받아쓰기 인공지능 서비스가 필요했다. 높은 기술력을 보유한 우리 팀이 도전해볼만한 분야였다.”

출처: jobsN
1시간 분량의 녹음파일을 올렸을 때 지불하는 비용은 7440포인트. 7000원대의 돈을 지불하면 음성을 텍스트로 변환해준다. 왼쪽은 다글로 서비스를 이용해 녹음파일을 문자로 변환한 자료. 정확도는 비교적 높으나 오역이 많은 것으로 드러났다.

-구글·네이버같은 IT 대기업에서도 음성인식 기술을 개발하고 있지 않나.


(이) “대기업과 스타트업은 문제를 인식하는 방법과 시행착오를 얼마나 감내할 수 있는가가 다르다. 구글·네이버는 당장 소비자가 쓸 수 있는 서비스를 내놓는데 주력한다. 사람들이 써봤을 때 즉각적으로 결과를 보고 만족도를 느낄 수 있어야 한다. 구글의 인공지능 스피커나 네이버의 음악 검색 서비스가 그렇다. ‘음악 들려줘’, ‘날씨 알려줘’ 같은 짧은 명령 음성인식은 비교적 간단하다."


"또 일상과 사무영역의 경우 학습(머신러닝·딥러닝)을 위해 준비해야 하는 데이터의 종류가 다르다. 녹음환경도 차이가 있기 때문에 전처리 기술(주어진 데이터를 그대로 사용하는것이 아닌 원하는 형태로 변형하는 것)도 다르게 적용해야 한다. 서비스 영역을 일상으로만 좁혀 나가다 보니 사무영역같이 리스크가 큰 분야는 섣불리 출시하지 못하는 것이다.”


“물론 구글·네이버에도 음성인식을 개발하는 연구팀이 있다. 다른 점은 액션파워는 분류한 데이터를 딥러닝·머신러닝에 활용한다는 것이다. 음성언어를 전문적으로 문서화 작업을 하는 영역은 교회설교·법률·뉴스가 있다. 물론 국가기관이나 교육분야, 영상콘텐츠 등 필요한 곳이 수없이 많다. 여건상 우리가 지금까지 개발하고 집중한 분야는 3개다.”


-분류 데이터를 머신러닝에 활용했을 때 장점이 무엇인가. 더 품이 많이 드는 건 아닌지.


(이) “분야를 세분화해 데이터를 학습시킬 때의 장점은 정확도가 올라간다는 점이다. 예를 들어 법률 분야에서 나오는 단어는 한정적이다. 조사·어미·전치사 등도 구성이 비슷한 패턴으로 나타난다. 녹음 음질과 발음 상태별로 다르지만 최상의 조건에서 녹음한 파일일 때 음성인식 엔진의 정확도는 85~95%(CER·Character error rate·전체정답글자수 대비 틀린 글자 수 기준) 수준이다. 처음부터 끝까지 전부 받아쓰는 일보다 인공지능의 도움을 받아 미흡한 부분만 수정·보완하는 일이 훨씬 간단하다.”

출처: jobsN
액션파워의 임직원.

-법원 속기사들이 써보고 싶다며 직접 사무실에 찾아왔다고 들었다. 혹시 서초동에 사무실을 잡은 것도 속기사들과 자주 접촉하기 위해서인가.


(조) “속기사를 대체하는 서비스 아니냐는 오해를 많이들 한다. 그러나 이런 오해는 그분들의 일을 너무 얕잡아보는 생각이다. 속기사가 하는 일은 빨리 받아치는 게 전부가 아니다. 이들은 전문 용어를 문맥에 맞게 가다듬고 정리한다. 사람의 인사이트가 필요한 일이다. 단어 하나의 오류가 발생해선 안된다. 인공지능은 앞뒤 문맥을 이해하면서 단어를 선정하는 데 한계가 있다. 물론 액션파워가 극복해야 할 지점이다.”


“속기사분들이 직접 찾아와 음성인식 기술이 발전하는 흐름을 거스를 순 없다고 말해주셨다. 다글로 서비스를 이용해 어떻게 일의 효율을 더할 것인지 고민해보겠다고 했다. 또 미래 기술을 갖고 선도적으로 속기사의 일을 더 개발해나가겠다고도 말했다. 이들은 액션파워의 주요 고객이다.”

 

-다글로 서비스의 경제적 가치는.


(이) “우리 기술이 좀 더 정교해지면 영상 자체를 문자로 검색할 수도 있다. 예를 들면 유튜버가 영상에서 제품을 리뷰했다. 제목이나 태그를 따로 설정해놓지 않아 기존 방식으로는 검색에 걸리지 않았다고 해보자. 음성을 텍스트로 변환하는 인공지능 서비스는 이런 데이터들도 다 찾아낼 수 있다.”


-다른 기업에서 인수 제안을 해온 적이 있는지. 매출 규모는 어느 정도인가. 현재 어느 기관에서 사용하고 있나.


(조) “있나, 없나로만 묻는다면 있다. 당연히 거절했다. 액션파워는 세상을 바꾸는 서비스를 만든다는 사명감을 갖고 있다. 시간이 걸리더라도 유의미한 결과를 꼭 만들것이다. 매출 규모는 현재로선 밝힐 수 없다. 우리 서비스를 사용하고 있는 기관도 보안상 말하기 어렵다.”


-회사 내부적인 이야기를 해보자. 팀원들이 다들 훌륭한 스펙을 갖고 있다. 액션파워의 장점은 무엇인지.


(조) “건강하고 즐거운 삶이 가장 중요하다. 우리가 일하는 목적이 거기에 있다고 본다. 회사의 성장과 더불어 개인의 성장도 함께 가야 한다. 어떤 방식으로 나타나냐면 직원에게 운동을 할 수 있는 지원비를 준다. 연간 60만원 정도다. 닭가슴살·건강간식 등을 준비해놨다. 팀원 개개인이 액션파워의 가장 소중한 자산이라 생각한다. 서로 존중하고 아껴주는 분위기다. 이 덕에 창업 초창기 수익적으로 어려움을 겪었던 시기에도 퇴사자 없이 버틸 수 있었다.”

-앞으로 채용할 계획이 있나. 인재상이 있다면.


(조) “올해 12~15명 정도로 인력을 늘릴 생각이다. 디자이너·머신러닝개발·웹개발 엔지니어를 찾고 있다. 신입 초봉은 스타트업계에서 최고수준이라고 자신한다. 상시채용이다. 인재상은 명확하다. 첫번째, 선한 인격일 것. 착한 사람이 좋다. 두번째, 적극적·능동적으로 문제 해결 방법을 가진 사람. 세번째로는 어려운 난관에 부딪혔을 때 창의적인 아이디어를 떠올릴 인재면 좋겠다.”


글 jobsN 김지아
jobarajob@naver.com
잡스엔

이 콘텐츠에 대해 어떻게 생각하시나요?