본문 바로가기
Statistics Analysis

independent sample t-test

by Nowkeeh Ahc

independent sample t-test

 independent sample t-test는 두 개의 독립된 그룹간의 특정 값의 평균을 비교하기 위해 사용하는 검정 방법이다.

만약 프랜차이즈 화장품 매장을 운영한다고 했을 때 강남지점과 명동지점의 평균 객단가는 동일하다고 볼 수 있을까? 두 지점의 평균 객단가가 유의미한 차이를 보이고 있다면 각 지점에 대한 전략이 달라져야 할 것이다. 이 뿐만 아니라 유지고객과 이탈고객간의 구매빈도차이, 성별 구매금액 차이 등을 검토 할 수 있도록 지원하는 분석 기법이다.

 

independent sample t-test 값 산출방식

  독립된 두 표본의 분산이 같을 경우와 분산이 다를 경우로 구분할 수 있다. 하지만 사실상 두 표본의 표준편차의 차이 값을 산출하는 공식만 다를 뿐 기본 원리는 동일하다.

 

independent sample t-test에서 t값은 두 표본의 평균 차이 값과 두 모집단의 평균 차이 값 간의 편차가 표준오차에 비해 몇 배 더 큰지를 나타내는 값이다. 따라서 t값이 커질수록 두 집단의 평균 차이가 크다는 것을 의미한다.

 

- 두 표본의 분산이 같을 경우

 

 

- 두 표본의 분산이 다를 경우

 

 

 

 

실습

실습은 임의의 고객 거래 데이터를 사용하여 진행해보았다.

 A사의 고객센터는 앱과 메일 등으로 접수된 클레임 유무로 고객을 분류하여 개별 마케팅전략을 수립하고자 할 때 클레임 유무가 고객 세그먼트의 기준으로 적합한지 확인하기 위해 매장 방문횟수를 통해 실제로 차이가 있는지 independent sample t-test를 통해 검증한다고 가정하였다.

 

 

 결과 해석을 위해서 클레임고객과 비클레임고객의 방문빈도 등분산성을 검정하기 위해 등분산검정을 실행해보았다.

 

#모듈 및 데이터 탑재
import pandas as pd
from scipy import stats
import numpy as np
df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')

# 등분산검정
no_claim = df[df.클레임접수여부== 0]
df2 = np.array(no_claim.방문빈도)
claim = df[df.클레임접수여부== 1]
df3 = np.array(claim.방문빈도)
stats.bartlett(df2,df3)

stats모듈의 bartlett 함수를 이용하여 등분산 검정을 수행하였다. 

 코드를 실행시키면 아래와 같은 (예시)결과값이 출력된다.

출력값 예시

클레임고객과 비클레임고객 간의 등분산 검정 결과 F값은 13.6261, pvalue는 0.05미만으로 영가설이 기각되어 클레임고객과 비클레임고객의 분산은 같지 않은 것으로 나타났다.

 

이제 이 결과를 바탕으로 independent sample t-test를 실행하였다.

 

#1. 독립표본 t-검정 및 방문빈도 평균
print(stats.ttest_ind(df2, df3, equal_var=False))
print('클레임 접수여부(0) 고객 평균방문빈도 : ',no_claim.방문빈도.mean())
print('클레임 접수여부(1) 고객 평균방문빈도 : ',claim.방문빈도.mean())

ttest_ind 함수를 이용하여 independent sample t-test를 진행하였고 equal_var에는 위에서 실시한 등분산 검정 결과 등분산이 아닌 것으로 나왔으므로 False로 설정하여 코드를 실행시켰다.

출력값 예시

 t값은 2.5957268..., p-value는 0.0095777...로 나왔으며, 비클레임 고객의 평균 방문빈도는 약 28번, 클레임 고객은 약 25번으로 출력되었다. 

 

결과 해석

 먼저 앞서 진행한 등분산 검정으로 두 집단의 분산은 동일하다고 볼 수 없다는 결과가 나왔다. 그래서 등분산이 가정되지 않은 independent sample t-test 결과, t값은 약2.6, pvalue는 약 0.0096으로 산출되었다. 따라서 영가설이 기각되어 클레임 유무에 따라 매장 방문빈도는 차이가 있다고 볼 수 있다.

 통계적으로 유의한 차이가 발견됐기때문에 클레임 고객에 대한 별도의 고객관리나 캠페인 등 다양한 마케팅 전략 수립이 필요하다고 생각된다. 


This post was written based on what I read and studied the book below.

http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9791195511754

댓글