본문 바로가기
Statistics Analysis

t-test (one sample t-test)

by Nowkeeh Ahc

평균 비교 분석

평균을 비교하는 분석 기법은 t-test, z-test, ANOVA 등이 있다.

t-test과 z-test은 2개 이하의 집단에서 평균을 비교하는 거의 동일한 분석 기법으로 모집단의 분산을 알고 있고, 표본의 수가 많을 때 t-test 대신 z-test을 사용할 수 있다.

그러나 실제로는 대부분의 분석 상황에서 모집단의 분산을 알기가 어렵기 때문에 t-검정을 주로 사용한다.

평균 비교 분석 간 차이

  t-test z-test ANOVA
집단의 수 2개 이하 2개 이하 3개 이상
모집단의 분산 알 수 없음 알고 있음 알 수 없음
표본의 수 상관 없음 30개 이상 상관없음
등분산성 고려함 고려 하지 않음 고려함

t-test

 두 개 이하의 집단에서 수치형 변수의 평균의 일치성을 판단하는 기법

t-test의 종류

t-test의 종류 분석 목적
one sample t-test 특정 수치로 알려진 모집단의 평균과 주어진 표본의 평균을 비교
(ex. A 통신사 고객들의 하루 평균 통화량 (분)이 60분이라고 알려진 상황에서 실제 최근 1개월간 A 통신사 고객들의 하루 평균 통화량 (분) 비교
independent sample t-test 독립된 두 표본 집단의 평균을 비교
(ex. A 통신사와 B 통신사 고객들의 하루 평균 통화량 (분) 비교)
paired sample t-test 실험 전 집단과 실험 후 집단과 같이 쌍체로 이루어진 두 표본 집단의 평균을 비교
(ex. A 통신사 고객 중 S사의 새로운 스마트폰으로 교체한 고객들의 교체 이전과 이후 하루 평균 통화량 (분)의 비교)

 


one sample t-test

 one sample t-test은 단일 표본의 수치형 변수의 평균값이 기존에 받아들여졌던 특정 값(모집단의 평균)과 실제로 일치하는지 판단할 수 있는 통계분석 기법이다.

가령 A기업의 평균 객단가는 20만 원이 맞는가? 이 상품의 구매고객 평균 나이는 26세가 맞는가? 등 성공적인 마케팅 전략을 수립하기 위해서는 현재까지 별 의심 없이 받아들여졌던 특정 수치가 정말 맞는 것인지 다시 검토해볼 필요가 있다.

 이러한 의문점들을 one sample t-test로 해결할 수 있다.

 

one sample t-test 값 산출방식

  one sample 평균비교 분석은 모분산을 아는 경우(z-test)와 모분산을 모르는 경우(t-test)로 구분이 가능하다.

검정 통계량 값을 산출 할때 z-test의 경우 정확한 모집단의 표준편차(σ)를 이용하고, t-test의 경우 모집단의 추정 표준편차(s)를 사용하게 되는데 이 의미는 모집단의 표준편차를 정확히 알고 있을 때 z-test를 사용하지만 일반적으로 모분산을 모르는 경우가 일반적이기 때문에 t-test를 사용해도 상관없다.

 

 one sample t-tset에서 t-value는 모집단의 평균과 실제 평균의 차이가 오차 수준(표준오차)에 비해 몇 배 더 큰지를 나타내는 값으로 t-value값이 커질수록 평균차이가 크다는 뜻이며, 이는 '우리 기업의 평균 객단가는 80만 원이다.'와 같이 기존에 의심 없이 받아들여졌는 특정 수치가 실제로는 다르다는 것을 의미한다.

 

 모분산을 모르는 경우 표본의 표준편차(s)를 사용하여 검정 통계량을 산출한다.

 

 

 위 식으로 t-value값을 구한 뒤 통계 분포표를 이용해 가설을 검정할 수 있다.

 

  1. 분석될 총 자료수(n)를 파악하고, 자유도 확인 (one sample t-test는 자유도가 '집단의 수 - 1')
  2. 연구자의 목적에 맞게 유의수준 설정
  3. 자유도와 유의확률을 바탕으로 통계 분포표의 임계치 값 확인
  4. 도출된 임계치와 계산된 t-value를 비교하여 가설의 채택 여부 결정

 

실습

실습은 임의의 고객 거래 데이터를 사용하여 진행한다고 가정하였다.

 작년 A사 고객들의 평균 구매액은 약 700만원이었고, 올해 평균 구매액 목표치를 8% 상승한 756만 원으로 결정하였을 때, 올해 고객들의 평균 구매액 목표치를 달성하였는지 판단하기 위해 one sample t-test를 통해 검정하고자 한다.

가설수립

 

#모듈 및 데이터 탑재
import pandas as pd
from scipy import stats
df=pd.read_csv('data.csv',sep=',',encoding='CP949')

scipy 패키지는 수치해석기능을 제공하는 대표적인 라이브러리고, stats 모듈은 확률과 통계 분석을 위해 필요한 다양한 함수를 제공한다.

# 총구매금액 평균 및 one sample t-test
print('총구매금액 평균 : ',df.총구매금액.mean())
print(stats.ttest_1samp(df['총구매금액'], 7560000))

 코드를 실행시키면 아래와 같은 결과값이 출력된다.

[Out 1]

 결과 해석

 one sample t-test 결과 A기업 고객들의 총 구매금액 평균은 7,068,690원이며 t-value는 -2.23, 유의 확률은 0.0259로 도출되었다. 따라서, 영가설이 기각되어 A사의 고객 별 총 구매금액 평균은 7,560,000원이 아니다.

 이 결과를 토대로 좀 더 마케팅론적으로 접근해보면 A사의 고객들 별 올해 총 구매금액이 평균 706만 8천 원이었다. 작년 고객 별 총 구매금액 평균과도 약 7만 원 밖에 차이가 없으며 목표치 또한 단연 달성하지 못했다. 따라서 A사에서는 목표치를 과도하게 잡은 것은 아닌지 검토할 필요가 있을뿐더러 타 동종업계 기업들의 성장률과 비교 분석을 진행하는 것 또한 하나의 방법이 될 것이다.


This post was written based on what I read and studied the book below.

http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9791195511754

댓글