'야민정음'도 번역하는 구글 번역기의 흥미로운 사실 5가지

조회수 2016. 11. 30. 11:56 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

쩐다!

구글 번역기는 올 11월에 한국어를 포함, 8개의 언어조합에 ‘구글 신경망 기계번역(GNMT)’이라는 새로운 기술을 적용했습니다. 구글 번역기는 새로운 기술로 월등한 수준의 성능 향상을 이뤄냈는데요. 이해는 물론이고, 번역이 완결된 문장의 완성도도 대폭 끌어올렸습니다. 오류율도 대폭 줄어들었다고 하는데요, 장문의 글도 초벌 번역으로는 전혀 무리가 없으며, 단문은 거의 완벽합니다. 

말이 필요없다. 대단하다.

11월29일 구글코리아에서 있었던 버락 투로프스키 구글 번역 프로덕트 매니지먼트 총괄과의 영상 기자간담회를 바탕으로 구글 번역기와 관련된 흥미로운 사실을 정리해봤습니다.

(정리정리!)
출처: 구글

1. 번역에 사용된 방식은 네이버와 같다.


구글 번역기는 웹에서 번역 콘텐츠를 긁어와서 학습합니다. 기계는 수많은 데이터를 바탕으로 인간의 개입이나 도움 없이 스스로 어떻게 번역됐는지 익힙니다. 기존 통계적 번역과의 차이는 번역의 단위인데요, 기계번역의 번역 단위는 단어나 구문이 아니라 문장입니다. 문맥을 활용해 적합한 번역을 파악하는 방식이죠.

출처: N모사의 인공신경망 번역서비

구글 번역기에 사용된 기술인 ‘신경망 기계번역’의 기술 자체는 보편적으로 알려져 있습니다. 회사마다 확보한 훈련 데이터를 바탕으로 커스터마이징하는 정도입니다. 네이버도 같은 기술을 쓰는데요, 그래서 각 사의 번역 기술 이름도 비슷합니다. 구글은 GNMT(Google Neural Machine Translation), 네이버는 N2MT(Naver Neural Machine Translation)라고 부릅니다. 회사명만 다른거죠.

(신경망 기계번역 좋아요!)
요즘 무척 유명한 문장을 넣어봤습니다.

2. 한국어·일본어·터키어는 한데 묶여 학습됐다


구글 신경망 기계번역 기술이 적용된 언어는 한국어를 비롯해 영어, 프랑스어, 독일어, 스페인어, 포르투갈어, 중국어, 일본어, 터키어 등의 8개 언어 조합입니다. 신경망 기계번역 기술의 장점 중 하나는 다중 언어를 한번에 학습시킬 수 있다는 것인데요, 특성이 비슷한 언어는 한꺼번에 트레이닝이 됩니다. 한국어·일본어·터키어는 언어적 특성이 유사해 묶어서 훈련이 됐습니다.

문학적인 글의 번역도 된다.

3. 데이터가 부족한 언어의 학습도 가능하다


한국어–영어, 일본어–영어의 번역 데이터가 각각 많고, 한국어–일본어의 번역 데이터는 상대적으로 그 수가 적다고 가정하겠습니다. 이 때도 신경망 기계번역을 활용하면 전혀 문제가 되지 않습니다. 한국어–영어–일본어를 함께 넣어 기계를 훈련시키면 한국어–일본어 사이에 직접 연결된 훈련 데이터가 없어도 번역할 수 있습니다.


또한 인터넷에서 잘 사용이 되지 않거나 공개되지 않은 언어의 학습도 가능합니다. 예컨대 힌디어 계열의 방언이라면 힌디어 데이터를 활용해 기계에 번역을 학습시킬 수 있습니다.

(헐!)

4. 편견이 반영된 경우도 있다


성별을 특정하지 않는 대명사를 번역할 땐 인간의 편견을 반영한 결과물을 내뱉기도 합니다. 예컨대 ‘어린이집 선생님’ 일때는 주어를 여성형으로 사용하고 ‘선생님’은 주어를 남성형으로 사용하는 식입니다. 버락 투로프스키 총괄은 “기계번역이 가지고 있는 가장 흔한 문제로, 훈련 데이터만을 사용할 때의 어려움이 있다”라며 “신경망으로 상당히 개선됐지만, 일부 언어는 아직 완벽하게 개선되진 못했다”라고 밝혔습니다.

(아직 완벽하지는 않다)
ㅇㅈ
인터넷에서는 ‘대’와 ‘머’의 형태가 유사한 것에 착안, ‘대’ 자리에 ‘머’를 넣기도 한다. 예) 대가리 – 머가리

5. 인터넷 공간에서 만들어진 언어도 번역할 수 있다


예컨대 요즘 많이 쓰이는 ‘ㅇㅈ?(인정하니? 라는 뜻)’ 의 경우 ‘Is it?’으로 번역이 되기도 합니다. 심지어 나이가 많은 사람은 잘 모르는 말인데도 불구하고 기계가 이해한 셈이죠. 


하나 더, 인터넷에서 쓰이는 ‘야민정음’이라는 한글 표기법도 부분적으로 번역이 됩니다. 야민정음이란 모양이 비슷한 글자를 대체하는 표기법인데요, 박근혜를 ‘박ㄹ혜’ 로 쓰는 식이다(‘근’과 ‘ㄹ’의 형태가 비슷하기 때문). 이는 새로운 번역의 기준이 ‘문장’이기 때문입니다. 사례로 든 단어는 제대로 모양이 갖춰져 있지 않았지만, 문장을 통으로 두고 번역하기 때문에 비교적 적절한 번역이 이뤄집니다. 물론, 모든 신조어가 제대로 번역되지는 않습니다.

(조금만 더 좋아지면 영어공부 안 해도 되겠다!)
이 콘텐츠에 대해 어떻게 생각하시나요?