마케팅 분석 실전: 통계 활용하기

조회수 2018. 6. 29. 14:32 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

통계 분석 방법과 활용까지!

지난 글에서는 「마케팅 분석 실전편 1탄: 차트에서 데이터의 스토리를 파악하는 법」을 알아봤습니다. “측정”과 “스토리텔링”이라는 데이터 분석의 목적을 달성하기 위해서는 시각화의 역할이 굉장히 중요했죠. 차트 외에도 데이터의 의미를 파악할 방법이 있을까요?


평소 마케터 여러분들이 데이터를 보는 이유를 생각해봅시다. 데이터 자체가 마케팅 결과이자 자신의 성과이기 때문이죠. 광고 집행 이후 노출, 클릭, 전환 등 사람들의 반응이 수치적으로 얼마나 나오는지 살펴보며 이 데이터를 다시 비용으로 나누어 투자 대비 성과(ROI)를 계산하기도 합니다. 즉 마케터는 본인의 성과를 측정하기 위해 끊임없이 원본 데이터의 숫자들을 집계하고 분석하고, 다시 그 변화의 정도를 보며 인사이트를 만들어냅니다.


원본 데이터의 집계와 계산을 통해 새로운 의미를 뽑아주는 방법에는 “통계 분석”이 있습니다. 뉴스젤리에서는 마케터 여러분께 데이터 분석의 실전이라 할 수 있는 통계 분석을 알려드리고, 여러 애드테크 솔루션에서 어떻게 통계 분석 방법을 활용하는지 알아보겠습니다.



1. 평균이 올랐을 때 기뻐하면 안 되는 이유

표준편차&표준점수 활용해보기

‘표준편차’와 ‘표준점수’라는 말을 들어보셨나요? 표준편차라는 여러 값들이 모인 어떤 데이터가 있을 때, 평균값을 기준으로 데이터가 어떻게 분포하는지를 숫자로 알려주는 값이 표준점수입니다.

출처: 위키피디아
표준편차 계산식.

위의 표준편차 계산식을 쉽게 풀어서 설명해 드릴게요. 평균과 실제 데이터(변인)과의 차이(평균과의 차이)를 제곱한 뒤 평균은 제외해야 하니 전체 데이터 개수에서 1을 뺀 숫자로 나눠줍니다. 이후 이 숫자(분산)의 제곱근을 구합니다. 간단하게는 엑셀에서 지원하는 수식(stdev)을 활용할 수도 있습니다. 쉽게 말하면 평균적으로 데이터의 차이가 얼마나 되는지 보여주는 식입니다. 

출처: 위키피디아
표준점수의 분포를 나타낸 그림.

표준편차를 활용하면 각기 다른 특성을 가진 집단에서 얼마나 성과를 거두었는지도 판단할 수 있습니다. 이때 사용하는 점수는 표준점수(Z점수라고 합니다)인데, 특정한 지표가 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 판단해주는 기준입니다. 쉽게는 지능검사나 수능 표준점수를 생각하면 됩니다. 각기 다른 과목을 응시한 수험생이 그 집단하에서 얼마나 잘했는지 상대적으로 비교하는 방식이었죠. 

출처: 동파의 대학입시 이야기
표준 점수의 원칙을 쉽게 설명해준 그림.

위의 그림을 작년 수능의 영어 점수와 수학 점수라고 생각해봅시다. 영어 점수는 평균이 60점, 표준편차가 20점이고 수학 점수는 평균이 60점, 10점인 상황에서 어떤 학생이 둘 다 80점이라는 점수를 기록했다면, 상대적으로 수학 점수에서 훨씬 성과가 좋았다 말할 수 있을 것입니다. 


그럼 온라인 마케팅 데이터를 분석할 때 표준편차와 표준점수를 어떻게 활용해볼 수 있을까요? 온라인 채널의 광고를 담당하는 여러분이 어제 페이스북에서 10개의 광고를 집행했다고 생각해볼게요. 어제 집행한 페이스북 광고 평균 도달 수가 지난주 평균보다 5,000이 증가했습니다. 마케터는 증가한 평균값을 보고 광고의 도달 성과가 굉장히 높아졌다고 판단했을 겁니다.


하지만 실제 성과가 좋아진 것이 아니었습니다. 이대로 보고했다가 팀장님께 꾸중을 들었죠. 자세히 파악해보니 1개 광고 수치의 도달 수만 5만 이상 증가한 상황이었던 것입니다. 이처럼 데이터의 평균값만 보면 각각의 값을 파악할 수 없어 성과가 떨어진 것은 알아채지 못할 수 있습니다. 네이버에 1,000개 이상의 광고를 집행하면 평균만으로 각 광고 성과 데이터 분포를 완전히 파악하기는 어렵겠죠.


이런 경우에 참고할 수 있는 것이 표준편차와 표준점수에 대한 분석입니다. 마테크 전문 사이트인 ‘Marketing Land’에서 소개한 사례를 통해 이 두 수치를 어떻게 활용할 수 있는지 알려드릴게요.

1. 표준편차는 광고의 효과를 어느 정도 보장할 수 있는 수치가 됩니다. 만일 특정 키워드 A의 클릭 수 평균이 500이고, 표준점수가 10이라고 하면 500이라는 수치가 어느 정도 보장되는 키워드라고 볼 수 있습니다. 반면 키워드 B의 클릭 수 평균이 500으로 동일하지만, 표준점수가 50이라고 하면 꾸준한 성과를 내기는 어려울 것입니다.

2. 표준점수로 서로 다른 광고 매체간 효과를 비교하는 상대 수치로 활용할 수 있습니다. 위에서 언급한 표준점수(Z점수)의 원칙을 광고에 적용해봅시다. 예를 들면 네이버와 다음의 동일한 키워드 광고를 9:1의 예산 비율로 집행했는데, 각각의 키워드의 효율을 비교해야 한다고 생각해봅시다. 각자 다른 광고 플랫폼에 다른 예산을 집행했으므로 합계나 평균만을 단순히 비교한다면 이 특징을 반영할 수 없을 것입니다. 그렇다면 각 광고 키워드가 얼마나 좋은 결과를 거두었는지 비교할 수 있는 상대적인 수치가 필요할 것입니다. 표준점수는 이 경우 활용할 수 있는 분석결과가 될 수 있습니다.


2. 어떤 카피의 반응이 더 좋을까?

A/B 테스트로 가설검정 진행하기

어제도 카피 문구 때문에 고민하신 마케터라면 A/B 테스트라는 것을 들어보셨을 겁니다. 가장 효과가 좋은 광고나 웹페이지를 만들기 위해 구성 요소를 교체하며 사용자 반응을 테스트하는 기법입니다. 구성 요소의 예시에는 카피, 페이지 레이아웃, 이미지 등이 있습니다. 웹페이지 최적화에서부터 출발한 기법으로 최근 페이스북에서 분할 테스트라는 광고 테스트에서도 활용합니다.

출처: Connectio
어느 광고의 결과가 더 좋은지 확인할 수 있는 페이스북 A/B 테스트.

그렇다면 A/B 테스트 광고를 했을 때 A안을 보여준 고객 5명의 전환 금액이 B안을 본 고객 5명의 전환 고객보다 500원 높으면 B안이 성공적이라고 해석할 수 있을까요? 사실 A/B 테스트를 집행하고 해석할 때 주의해야 할 원칙이 있습니다. A/B 테스트가 추론통계의 원칙을 활용한 방법이기 때문입니다. 


가설검정과 신뢰구간이란 주로 “추론통계”에서 쓰이는 말입니다. 앞서 이야기했던 합계, 평균, 표준편차를 통계학에서는 기술통계(descriptive statistics) 방법이라고 합니다. 쉽게 말하자면 데이터의 특성을 이해할 수 있는 통계 방법입니다. 반면 추론통계란 자신의 이론이나 가설을 증명하기 위해 사용되는 방법입니다. 전체 데이터에서 일정한 표본을 추출해서 분석한 뒤 이를 기반으로 전체 데이터의 특성으로 추론해도 될지 판단하는 것입니다. 즉 불확실한 무엇인가를 알기 위한 방식입니다.


왜 A/B 테스트에서는 추론통계를 사용할까요? 광고 A안과 B안의 효과를 검증하기 위해 광고를 보여준 고객의 수가 전체 고객의 수가 아니기 때문에, 어느 정도 결과에 대한 추정이 필요합니다. 그리고 “효과가 있다”는 말은 주로 “유의하다(Statistically Significant)”로 사용합니다.


추론통계를 적용할 때의 주의점은 두 가지가 있습니다. 우선 전체 데이터에서 표본을 추출할 때 어느 정도 샘플링 숫자를 확보해야 한다는 점입니다. 앞서 언급한 추론통계의 목적은 ‘불확실한 무엇인가를 검증하기 위해서’죠.


샘플링 숫자가 작아지면 추론통계의 기본 전제를 일반화시키기 어렵습니다. 또한 샘플링 방법에도 주의를 기울여야 합니다. 샘플링을 잘못하면 데이터의 값이 달라진다는 문제점이 있기 때문입니다. 이 특징은 그대로 A/B 테스트 시 주의사항에도 반영됩니다. A/B 테스트를 잘 집행하기 위해서

1. 샘플 사이즈(광고에 노출되거나 사이트에 접속하는 사람들의 수)가 확보되어야 합니다. 결과의 신뢰도를 확보하기 위해서는, 샘플 사이즈가 확보되어야 합니다. 예를 들어 전환율 1%를 높이는 디자인을 검증하기 위한 최소 표본 수는 3,076명입니다. 

2. 그리고 이 고객들이 A와 B안에 고루 할당되어야 합니다.

주로 평균 분포가 얼마나 차이가 나는지,

신뢰 구간의 결과를 해석하기 위해서는 통계적 유의미도를 확인해야 합니다. 통계적 유의미도가 중요한 이유는 이 실험에서 검증된 원칙을 다른 광고에서도 잘 써먹을 수 있을지에 대한 증거가 되기 때문입니다.

- 주로 평균 분포가 얼마나 차이가 나는지,

- 이 결과를 얼마나 확신할 수 있을지 살펴봅니다.

마테크 전문가인 닐 파텔의 A/B 테스트 결과를 볼까요?

테스트 B의 전환이 34% 더 좋았습니다(평균 분포의 차이). 테스트 B에서 시도한 변화가 전환율을 높일 것이라고 99% 확신합니다(통계 유의도).
출처: NEILPATEL
A/B 테스트 결과를 쉽게 전달해주는 닐 파텔의 사이트.
이 결과를 엑셀에서 계산하기 두렵다면, 인터넷의 다양한 계산기를 이용해보세요. 광고나 웹사이트 개선 실험 시 사용해볼 수 있겠죠? 아래의 사이트들을 참고해보세요.
  • A/B 테스트와 신뢰구간의 원리를 잘 설명한 사이트
  • A/B 테스트에서 필요한 방문자 수를 결정 가능한 사이트
  • A/B 테스트 결과를 쉽게 해석해주는 닐 파텔의 사이트
  • A/B 테스트 지속 기간을 결정하는 공식

3. 매출에 영향을 주는 데이터는 무엇일까

데이터 간의 관련성이 궁금하다면 상관분석을 주목!

전환 수나 매출이 어떤 광고 데이터와 관련이 있는지 궁금한 분이 계신가요? 그렇다면 상관분석을 주목해 주세요. 상관분석이란 데이터의 관련성을 찾아내고 지표 간의 관련성 수준을 수치적으로 알려주는 통계적 분석 방법입니다.


상관분석은 특정 변수 X와 Y가 함께 변하는 정도를, “X와 Y가 각각 변하는 정도”를 나누어 표현합니다. 이때 사용되는 계수를 피어슨 상관계수라고 합니다. 피어슨 상관계수의 경우 변수 X와 Y가 완전히 동일하면 +1, 전혀 다르면 0, 반대 방향으로 동일한 경우 -1의 값을 보입니다.

상관분석을 사용할 수 있는 다채널 광고데이터 관리 솔루션 ‘매직테이블’

이를 풀어서 설명하자면, 

- 강도(변수가 얼마나 밀접한가)와

- 변화 방향으로 이해할 수 있습니다.

우선 두 변수의 밀접도가 얼마나 강력한가의 기준은 상관계수의 크기(절댓값)로 판단됩니다. 상관계수의 크기가 0에 가까울수록 관련성이 낮고, 1에 가까울수록 관련성이 높다고 볼 수 있어요.


상관도의 정도를 세분화한 기준도 있습니다. 예를 들어 0에서 0.1은 관련성이 거의 없습니다. 0.1부터 0.3의 상관계수는 약한 관련성이 있고, 0.3부터 0.7까지는 어느 정도 관련성이 있다고 판단할 수 있습니다. 만일 상관계수가 정도가 0.7부터 1 사이라면, 관련성이 강하다고 볼 수 있습니다.


한편, 양수와 음수는 비례와 반비례를 나타냅니다. 만일 변수 X와 Y의 상관계수가 0 이상이라면 양의 상관관계를 보입니다. 즉, X가 증가한다면 Y도 증가합니다. 반면 X와 Y의 상관계수가 0보다 작다면 반비례의 관계를 보입니다. X가 증가하면, Y는 감소합니다.

광고 데이터의 상관도를 구해주는 솔루션, 매직테이블

예를 들어 화면에서 매출과 각 광고 데이터 간의 네이버의 경우 63%(피어슨 상관계수는 0.63), 인스타그램의 도달 수는 -33%(-0.33)입니다. 아를 다시 해석하자면 매출은 네이버의 노출 수와 강한 양의 상관관계, 인스타그램의 도달 수는 약한 음의 상관관계가 있습니다. 즉 네이버의 노출 수는 인스타그램의 도달보다 연관관계가 강합니다. 매출 상승과 긍정적인 관계가 있다고 해석할 수 있습니다. 


다만 상관도가 높다고 해서 어느 두 데이터 사이의 인과관계가 있다고 해석하지 않도록 주의해주세요. 상관분석은 상관관계와 인과관계는 다른 것이고, 인과관계가 궁금하다면 회귀분석을 사용합니다.



4. 클릭 수가 내일 어떻게 바뀔지 궁금하다면?

예측 모델 구하기

오늘 좋았던 클릭 수가 내일도 좋을 수 있을까요? 미래의 성과를 우리는 어떻게 예측할 수 있을까요? 가장 단순하게는 과거의 데이터를 기반으로 판단하는 방법인 시계열 분석이 있습니다. 시계열 분석이란, 과거 데이터의 패턴을 바탕으로 미래의 데이터를 예측하는 것입니다.

출처: toward the end…
기존 데이터를 바탕으로 시계열 분석 확인하기.

예컨대 이미지의 “실적”을 디지털 마케팅에 대입해본다면, 1월부터 9월까지의 실적(하늘색 실선)을 바탕으로, 10월 이후의 실적(주황색 실선)을 예측하는 것입니다. 주황색 실선 주변에 있는 다른 실선들은 실적의 오차 범위를 의미합니다. 

시계열 분석을 이용한 데이터 예측 차트 모습, 매직테이블

이 데이터 또한 시계열 분석을 이용한 결과랍니다. 또한 이 데이터의 정확도를 개선하기 위해 예를 들어 최신 데이터일수록 그 데이터에 가중치를 부여하여 계산하는 지수평활법을 활용할 수 있습니다. 여기까지 읽으신 분들은 이렇게 반문하고 싶으실 겁니다. 

하지만 마케팅의 경우 외부 요인도 많은걸요? 이런 값을 얼마나 신뢰할 수 있죠?

비단 마케팅뿐 아니라 이런 다양한 변인을 가진 상황의 예측 모델을 개선하기 위해 다양한 방법이 있습니다. 그중 다른 외부 요인의 영향까지 평가할 수 있는 causal impact라는 방법을 소개하겠습니다.

예상 수치(검은 선) 및 오차 범위(하늘색)를 알려주는 구글의 causal Impact

causal impact는 구글에서 공개한 예측 분석 모델 패키지로, 특정 사건이 미친 영향과 장기적인 데이터의 변화를 분석하는 데이터입니다. 장기적인 데이터 변화의 예시는 계절 효과(주기적인 상승 및 하락), 혹은 장기적인 변화를 생각할 수 있습니다. 반면 특정 사건이 미친 영향은 마케팅 집행 결과를 의미합니다. 


고급 아이스크림 전문점 마케팅을 예시로 생각해 봅시다. 월말 보고서를 작성하기 위해 데이터 분석을 한 결과, 다음 특징을 확인했습니다.

1. 계절 효과: 식음료 광고에는 계절 효과가 있다. 여름에 매출이 높고, 겨울에는 매출이 상대적으로 낮다.

2. 장기적인 변화: 지난 3년간 소득이 증가하면서 전반적으로 매출이 상승했다.

3. 특정 사건: 최근 2주간 유튜브에 동영상 광고를 집행한 이후 매출이 올랐다.

causal impact는 3의 마케팅 효과를 판단할 때 1, 2의 영향이 있는지 함께 판단해줄 수 있습니다. 현재 구글에서 공개한 causal impact를 사용할 수 있는 프로그램은 R로 구성되어 있습니다.



합계와 평균 그 이상의 분석을 꿈꾸신다면


멀게만 느껴졌던 통계, 사실은 마케터 여러분들이 궁금한 다양한 문제에 대한 해답이 필요할 때 활용할 수 있습니다. 엑셀 외의 다양한 프로그램에서도 이러한 데이터 분석이 가능합니다. 오늘 한 번 합계와 평균 그 이상의 데이터 분석을 진행해보시면 어떨까요?


원문: 매직테이블의 브런치


이 콘텐츠에 대해 어떻게 생각하시나요?