[왕초보 데이터분석 무작정 따라하기] 마케터는 왜 데이터 분석을 해야할까? 그리고 어떤 분석을 할 수 있을까? 마케터를 위한 통계분석을 소개한다.
#00 마케터를 위한 데이터 분석
마케터에게 데이터분석이란
많은 기업들이 마케터에게 data-driven 역량을 요구한다. 마케터 혹은 예비 마케터들은 기업의 요구 맞춰 GA, GTM, Excel, SQL과 같은 데이터 툴을 익힌다.
GA와 GTM은 웹의 로그 추적하는 방식으로 사용자가 타겟 페이지까지 어떠한 경로로 유입되었으며 어떤 상호작용이 이루어졌는지 파악한다. 이를 파악하고 어떠한 지표가 높을 때, 목표한 페이지의 도달율 또는 매출이 높아지는지 알아내고 그 지표를 개선하기 위해 노력한다. 하지만 상당수의 디지털 마케터, 퍼포머스 마케터가 그러하듯 GA와 GTM가 제공하는 결과와 지표를 확인할 뿐이다. Excel과 SQL을 사용하여 사용자 정보, 매출, 제고 등을 관리하고 평균과 분포 등을 계산하여 현황을 파악한다. 하지만, 툴이 제공해주는 결과값을 파악하는 것과 데이터의 평균과 분포, 또는 비율 등을 비교하는 것이 전부일까?
근본적인 질문을 던져보자. 마케터는 왜 데이터 분석을 해야할까? 모든 마케터의 최종의 목적은 매출증대이며, 이를 위해 마케팅 활동의 다양한 지표를 확인하고 개선하는 것이다. 물론 데이터와 간단한 결과값을 파악하는 것은 엑셀이나 SQL만으로도 가능하다. 대다수의 마케터들이 그래왔으며 현재도 그렇게 하고 있다. 하지만 실무를 해본 마케터는 다음 상황에 공감할 것이다. 데이터를 분석한다고 했고 인사이트를 얻었지만 우리는 확신을 갖지 못한다.
이러한 불안감은 회사는 1개의 마케팅 활동만 하지 않기 때문이 크다. 즉, 내가 진행한 마케팅 활동이 실제 매출에 얼마나 기여했는지 알수 없다. 때문에 많은 마케터들은 부분적인 kpi만 보고할 뿐 매출에 얼마나 기여했는지는 말하지 못한다. 그러니 자신의 성과에 대해 당당할 수 없는 것이다. 이러한 상황에서 대부분의 마케터는 다양한 지표 중 어떠한 것들이 실제 매출에 영향을 미치는지 확신하지 못한 체, 관습적으로 혹은 경험적인 막연한 믿음에 의존한다. 하지만 관습적이고 경험적인 추측만으로는 마케터 본인도 지표와 매출과의 구체적인 상관관계를 알수 없고, 그렇기에 다른 사람을 이해시키고 설득시키기도 쉽지 않다. 사람들은 상관관계를 이해할 수 있을 때 더 신뢰하며, 구체적인 숫자가 있으면 설득하기 더욱 쉬워진다. 그리고 우리는 이러한 상관관계와 구체적인 수치를 통계기법과 ML을 통해 알 수 있다.
▼데이터 분석의 단계
기초 데이터 분석 | 1. 데이터 표 만들기 | 현상, 결과, 대략적인 상관관계를 파악할 수 있음 |
2. 데이터를 눈으로 보기 | ||
3. 총합, 평균, 비중 확인하기 | ||
4. 시간/기간 별 비교하기 | ||
중급 데이터 분석 | 5. 변수 조작 및 정의하기 | 인과관계, 상관관계을 분석하고 예측값을 구할 수 있음 |
6. 분석모델 사용 및 해석하기 |
마케터를 위한 데이터분석
마케팅 데이터를 제대로 분석하기 위해서는 통계분석이 필요하다. 물론 대부분의 마케터가 통계의 'ㅌ'자도 모른다. 그렇기 때문에 마케터에게 통계는 더욱이 중요하다. 통계를 조금이라도 다룰 줄 안다면, 마케팅에 써먹을 수 있다면 그 누구도 가질 없는 설득력과 포퍼먼스를 낼 수 있기 때문이다. 필자는 이 글을 통해 마케팅에서 사용할 수 있는 통계분석법과 파이썬 코드를 최대한 쉽고 간단하게 알려주고자 한다. 먼저 어떠한 통계분석법이 있고 어떻게 사용할 수 있을지 간략하게 살펴보자. 어려운 단어들이 나온다고 겁먹을 필요 없다. 개념을 이해하면 당연히 좋지만, 이후 코드를 사용할 때 개념을 몰라도 사용하는데 큰 지장은 없으니 가벼운 마음으로 읽어보길 바란다.
데이터를 분석하는데 사용되는 대표적인 통계기법은 회귀분석(Regression Analysis)이다. 회귀분석은 독립변수(원인)와 종속변수(결과) 사이의 관계를 분석하고 상관관계를 추정하는 통계기법이다. 쉽게 말해 다양한 지표 중 어떠한 것들이 kpi에 영향을 미치고, 그 정도가 얼마나 되는지 파악할 수 있다. 회귀분석은 목적에 따라 단순회귀(Simple Regression), 다중회귀(Multiple Regression), 다변량회귀(Multivariate Regression), 다항회귀(Ploynomial Regression), 로지스틱회귀(Logistic Regression) 등 다양한 방법으로 사용된다.
첫째, 단순회귀(Simple Regression). 단순회귀는 단순선형회귀라고도 하며 1차 함수와 직선 그래프로 표현할 수 있다. 데이터를 독립변수(x)와 종속변수(y)로 정의하고 상관관계를 분석하여 오차가 가장 적은 함수식을 구하는 것이다. 아래 그림의 파란 점이 각 데이터값(x,y)이고 빨간 선이 모든 데이터를 추론하기에 가장 적합하다고 생각되는 1차 함수(y=a+bx)의 그래프 예이다.
위 단순선형회귀 그래프의 파란점과 빨간선의 떨어진 정도는 오차의 정도이다. 오차는 예측값과 실제값의 차이이다. 즉, 멀리 떨어질 수록 오차가 크다는 것이다. 그리고 직선인 1차 함수로 모든 데이터를 추론하기에 오차가 클 수밖에 없다.
둘째, 다항회귀(Ploynomial Regression). 오차를 줄이기 위해서는 점과 선의 거리를 최대한 가깝게 해야 하는데 이를 위해서는 직선이 아닌 곡선을 사용해야 한다. 회귀함수의 식이 고차항을 가지면 그래프가 곡선을 그리며 오차가 줄어들게 된다. 하지만 이 역시도 1개의 독립변수만을 사용하기 때문에 일반적으로 다양한 변수를 고려해야하는 실무에서는 사용에 제한이 있다.
셋째, 다중회귀(Multiple Regression). 다중회귀는 여러개의 독립변수를 사용하는 회귀분석이다. 3개의 프로모션을 진행중이라고 하자. 이는 사실상 3번의 손실이 중첩되는 것이기에 매우 부담스럽다. 이때, 각 프로모션의 효과를 파악하고 효과가 낮은 프로모션의 비중을 줄이면 불필요한 손실을 막으면서 프로모션의 전체적인 효과는 유지할 수 있다. 이러한 상황에서 여러개의 독립변수(X1, X2, X3 ...)와 종속변수(Y) 사이의 함수식을 구하는 다중회귀분석을 사용할 수 있다. 다중회귀 함수식이 'Y = 500*X1+ 100*X2 + 200*X3 + e'이라고 하면 X2의 효과가 가장 적으므로 규모를 줄이거나 중단하는게 적합할 것이다.
데이터분석의 최종목표는 위와 같은 회귀분석을 사용하여 결과를 예측하는 것이다. 하지만, 그전에 데이터를 필요에 따라 구조화하고 정제하는 것이 필요하다. 우선, 데이터분석의 가장 기본이라고 할 수 있는 data frame을 다루는 코드부터 알아보도록 하자.
'데이터 스킬업 > 데이터 처리&시각화(Python)' 카테고리의 다른 글
[파이썬 : DataFrame 다루기] #02 행/열 추가 및 제거 with Pandas (0) | 2022.07.17 |
---|---|
[파이썬 : DataFrame 다루기] #01 DataFrame 생성, 컬럼값(특정값)/인덱스 기준 정렬 with Pandas (0) | 2022.07.17 |
댓글