본문 바로가기
Statistics Analysis

paired samples t-test

by Nowkeeh Ahc

paired samples t-test

 paired samples t-test는 실험 전 집단과 실험 후 집단과 같이 쌍체로 이루어진 두 표본 집단의 평균을 비교하는 검정이다.

 기업에서 고객 대상으로 캠페인을 진행하였는데 이로 인해 매출이 상승했을까?를 파악하기 위해서는 동일한 고객 집단의 캠페인 진행 이전과 이후의 고객 구매액을 비교해야 할 것이다. 이러한 검증을 paired samples t-test를 통해 수행할 수 있다.

 

paired samples t-test 값 산출방식

  동일한 표본이 두 개의 서로 다른 상황 (캠페인 진행 여부 혹은 시간의 흐름)에서 특정 수치형 변수의 평균의 동일 여부를 판단하는 분석방법으로 t값은 캠페인 전과 후 혹은 특정 시점과 그 이후 시점과 같이 쌍체로 이루어진 두 표본의 평균 차이 값과 이 두 쌍체 모집단의 평균 차이 값 간의 편차가 표준오차에 비해 몇 배 더 큰지를 나타내는 값이다. 따라서 t값이 커질수록 두 쌍체 그룹의 평균의 차이가 크다는 것을 의미한다.

 

 

 

  • independent sample t-test와는 달리 paired samples t-test는 분석 대상의 표본이 반드시 대응되어야함.
  • paired samples는 시간상 전후의 개념이 있기 때문에 집단간의 독립성 가정은 필요하지 않으며, 두 모분산이 같다고 가정할 필요도 없음.
  • 데이터가 완전한 pair를 이루지 않는다면 missing value가 존재하는 것이므로 처리를 해야 함.
  • missing value 처리 방법
구분 방법
삭제법 paired data 중 missing value가 있는 경우 해당 sample을 삭제하고 분석하는 방법으로 기본 결측 값 처리 방법.
표본 평균법 missing value에 대해 해당 sample의 산술평균 값을 할당. (데이터가 무작위로 분포되어 있을 경우)
단순 대치법 회귀분석 등 결측 값을 추정할 수 있는 방법을 사용하여 결측 값을 예측하는 방법.
다중 대치법 missing value에 대해 대체 가능한 여러 후보 값을 추정한 후 무작위로 대체 값 중의 하나를 추출하여 할당.
Hot-deck대체법 해당 변수의 실제 관측된 값 중에서 하나를 추출하여 missing value에 대체하는 방법으로 missing value가 발생하면 동일한 지역이나 성별 등 동일한 특성을 가지고 있는 값들 중에서 하나를 무작위로 추출해서 할당.

 

 

실습

실습은 임의의 고객 거래 데이터를 사용하여 진행해보았다.

 A사는 멤버십 프로그램을 개발하였는데 이를 통한 고객들의 만족도의 변화가 통계적으로 유의한 지 알아보기 위해 고객들의 신규 멤버십 프로그램 도입 전과 도입 후의 고객만족도에 대한 paired smaples t-test를 수행하였다.

 

 

#모듈 및 데이터 탑재
import pandas as pd
from scipy import stats
df=pd.read_csv('data.csv',sep=',',encoding='CP949')

#paired samples t-test
stats.ttest_rel(df['멤버쉽_프로그램_가입후_만족도'], df['멤버쉽_프로그램_가입전_만족도'])

 

stats.ttest_rel() 는 pair을 이루는 두 개의 데이터 세트를 파라미터로 받아 paired samples t-test를 수행해주는 모듈이다.

 

코드 실행 결과

 

 

결과 해석

 paired samples t-test 결과 t값은 약 29.56, pvalue는 약 0.000000000...으로 출력된 것을 확인할 수 있는데 영가설이 기각되어 멤버십 프로그램 가입 전 고객 만족도와 가입 후 고객만족도는 차이가 있다고 할 수 있다. 

 


This post was written based on what I read and studied the book below.

http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9791195511754

댓글