통합 검색어 입력폼

[NDC18] 딥 러닝으로 더 정확하고 더 빠르게 게임 내 욕설 '꼼짝마'

조회수 2018. 4. 25. 15:38 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

딥 러닝 기술로 자연어를 이해해 욕설을 탐지

온라인 게임의 골칫거리인 사용자의 욕설을 막기 위해 그동안 수많은 노력이 있어왔다. 이번 NDC 2018에서는 금칙어 사전을 기반으로 한 기존의 필터링을 넘어선 새로운 방법이 제시되었다. 최근 큰 진보를 보이고 있는 딥 러닝(Deep learning) 기술을 응용한 욕설 탐지다. 넥슨코리아 인텔리전스랩스 어뷰징탐지팀 조용래 연구원이 최신 딥 러닝 기술을 이용한 욕설 탐지를 발표했다.

▶ 넥슨코리아 인텔리전스랩스 조용래 연구원

조 연구원은 “사용자의 욕설은 게임 내 가장 큰 불쾌 요소 중 하나”라는 이야기와 함께 발표를 시작했다. 사용자 간의 욕설은 불쾌한 경험을 주고, 이것이 심해지면 사용자가 게임에서 이탈하게 만들며, 극단적인 경우에는 고소고발 등 법적 분쟁으로까지 이어지는 심각한 문제다. 이를 막기 위해 게임마다 크고 작은 규모의 욕설 탐지 및 제재 시스템이 존재한다.


   

그런데 지금까지는 온라인 게임에서 대부분 금칙어 기반으로 욕설을 탐지해 왔는데, 이는 미리 말해서는 안되는 단어나 문장을 설정해 놓고 이것과 일치하면 단어를 마스킹(*로 가리는 등)하거나 제재하는 구조였다. 모두가 잘 알고 있듯 이런 금칙어 기반의 욕설 탐지는 다양한 방법으로 우회가 가능하다. 금칙어를 늘리면 오탐이 늘어나 일반적인 사용자의 경험을 해치게 된다.


   

이 날 발표에서 조용래 연구원이 지적한 금칙어 기반 욕설 탐지의 가장 큰 문제는 결국은 비속어와 공격적인 표현을 제대로 구분할 수 없다는 점이다. ‘제가 병신이었네요’ 같은 자학적인 표현은 제재 받아야 마땅할 비속어 표현인가? 반대로 ‘배를 확 따서 회를 쳐 먹어 버릴까’ 같은 일상적인 단어를 조합해 나오는 표현은 어떻게 처리를 해야 할까?


   

게다가 게임 내에서 발생하는 욕설은 결국 운영자가 직접 신고 받아 보고 처리하게 되는데, 방대한 분량의 욕설을 보고 처리하는 일 자체가 운영자에게 심각한 스트레스를 주게 된다. 조 연구원은 이런 난점을 극복하기 위한 방안을 찾기 위해, 딥 러닝 기술로 자연어를 이해하고 나아가 욕설 탐지에 접목하게 되었다고 설명했다.


    

기본적인 프로젝트 목표는 딥 러닝 기술을 통한 처리로 욕설 제재 과정에서 운영자의 수고를 더는 방향으로 잡았다. 일반적으로 온라인 게임 내 욕설 신고에 대해 운영자가 수동 식별 후 제재를 가한다. 이 과정에서 딥 러닝 기술이 미리 욕설을 추출 후 정렬하여 운영자가 욕설에 대해 판단하는 부담을 덜도록 한다는 것이 목표다.


   

딥 러닝 기술을 욕설 탐지에 접목하는 과정에서 크게 세 가지 접근이 필요했다. 하나는 데이터의 확보다. 확실한 욕설을 ‘라벨링’ 해야 욕설 탐지기에서 활용할 수 있는데, 이를 위한 가장 확실한 방법은 ‘노가다’였다. 조 연구원은 크롤링 및 10명의 넥슨 사우들과 함께 직접 욕을 입력해 프로토타입을 위한 데이터를 확보했다고 밝혔다.


   

그 다음은 모델링이다. 여기에는 1D CNN(Convolutional Neural Network)을 사용했다. 원래 1D CNN은 단어 기반이지만, 온라인 게임의 채팅 데이터를 받아야 하기 때문에 자모 입력을 받는 방식으로 바꾸었다. 이를 알고리즘에 넣기 위해 문자를 숫자로 바꾸는 임베딩 작업을 거쳤다. 비슷한 욕이 들어왔을 때 탐지할 수 있도록 임베딩 역시 데이터를 통해 학습하는 과정을 거쳤다.


   

이제 다양한 필터를 사용해 데이터의 특성을 추출하고, 가장 특징적인 부분만 남겨놓고 나머지는 버리는 풀링(Pooling) 과정으로 노이즈를 감소시켰다. 이제 이렇게 얻은 특성을 기반으로 이 텍스트가 욕설일 확률을 계산, 출력한다. 이 과정을 통해 금칙어 사전 없이도 욕설 탐지가 가능하며, 금칙어 기반과 비교했을 때 정확도가 30% 이상 개선되는 결과를 얻었다.

▶ 금칙어 회피 수단으로 흔히 사용하는 숫자넣기도 딥 러닝 기술의 눈은 피할 수 없었다

실제 결과를 확인하기 위해 2017년 10월 공개 행사를 통해 ‘욕설 탐지기 DEMO’를 시연하기도 했다. 사용자가 임의의 욕설 문장을 넣어, 욕설 탐지기가 욕으로 탐지하면 욕설 탐지기의 승리 아니면 사용자의 승리인 이벤트였다.


    

또한, 조 연구원은 온라인 FPS ‘서든어택’에 이 욕설 탐지기 프로토타입을 제공해 현재 테스트 중이라고 밝혔다. 신고 된 채팅 내용 중 욕설에 해당하는 부분을 딥 러닝을 통해 빠르게 추출해 운영자가 더 빠른 판단을 내릴 수 있도록 돕는 역할이다. 획기적인 욕설 탐지 개선이 있었고, 실제 운영자의 업무 능률 향상을 이끌어 낼 수 있었다.


     

끝으로 조용래 연구원은 “인공지능은 스카이넷이 아니다. 인공지능은 사람을 대체할 수 없다고 생각한다”고 밝혔다. 특히 어뷰징 탐지 분야에 있어서는 단 한 명의 무고한 사람이라도 어뷰징으로 처리되어서는 안되기 때문에, 정확도 99.9%라고 해도 여전히 사람에 비해 부족할 수 밖에 없다고 지적했다.


    

그는 대신 “인공지능이 인간을 도와 인간을 편하게 해주고 업무를 더 효율적으로 만들 수 있다면 인공지능의 가치는 충분히 달성했다고 본다”는 견해를 밝혔다. 이외에도 ‘욕설탐지기’ 프로젝트는 게임 개발 및 게임 운영 그리고 데이터 분석 및 인공지능 팀 간의 협업을 통해 탄생할 수 있었으며, 협업과 소통이 매우 중요한 작업이었음을 강조했다.

이 콘텐츠에 대해 어떻게 생각하시나요?