티스토리 뷰
T-Test 란
T-Test (Two-Sample Test / Student's T Test) 란 두 집단의 평균을 비교하는 통계적 검정 방법이다
단순히 차이의 존재 여부를 떠나 두 집단의 비교가 통계적으로 유의미한가 를 검정한다.
다른말로는, 이 두 모집단의 차이가 우연에 의해서인지 아닌지를 검정한다.
Example 1 )
감기에 걸렸을때 약을 먹었을때 치유되는 기간과 먹지 않았을때 자연적으로 치유되는 기간을 비교할 수 있다.
두가지 case 의 차이가 유의미한지 검정하기 위해서는 여러명의 사람에게 평균적으로 비슷한 기간이 걸리는지 테스트를 할 필요가 있다. (약을 먹었을때 평균 3일, 자연치유가 평균 5일이 걸렸을 시 이 결과가 repeatable 한가? 우연에 의해서 혹은 다른 요인에 의해 차이가 나는것은 아닌지)
Example 2 )
타이타닉 data 를 사용하여 비교할때, 1등석/2등석/3등석의 평균 생존률을 T-Test 를 사용하여 생존률과 좌석 class 의 차이가 연관이 있는지 검정할 수 있다
T-Score
T-Value and P-Value
모든 T-Value 는 P-Value (probability) 를 가지고 있다. P-Value 는 데이터가 우연에 의해 일어났을 확률이다.
P-Value 가 유의수준(통상 5% ) 과 같거나 적다면 두 모집단이 유의미한 차이가 있다고 생각한다. (They indicate your data did not occur by chance)
0에 가까울수록 좋은 p-value 이다.
T-Test in Python
from scipy import stats tTestResult = stats.ttest_ind(titanic_survived['age'], titanic_n_survived['age']) tTestResultDiffVar = stats.ttest_ind(titanic_survived['age'], titanic_n_survived['age'], equal_var=False)
결과값은 아래와 같이 나온다. (age 값은 유의미한 차이 없음)
Ttest_indResult(statistic=-0.5527882041174945, pvalue=0.5805436111084868)
참고 : http://www.statisticshowto.com/probability-and-statistics/t-test/
'Data Science' 카테고리의 다른 글
[Python] Logistic Regression (0) | 2018.06.08 |
---|---|
one-hot-encoding (0) | 2018.05.12 |
pandas/numpy (0) | 2018.04.14 |
[Python] Pandas module (0) | 2018.03.26 |