T-test ,ANOVA-test 의 전제조건
T-test ,ANOVA-test 의 전제조건
1. 정규성(Normality)
.비대칭도 - 왜도(skewness)
- 첨도(kurtosis)
2. 분산(혹은 표준편차)의 동질성(Homogeneity of variance)
3. 독립성
정규성(Normality)
데이터가 얼마나 정규분포처럼 생겼는가 이를 정규분포(normal distribution)를 잘 따른다고 표현한다.
즉, 평균값을 기준으로 값들이 퍼져있는 확률이 정규분포를 따른다는 뜻이다.
정규성 test
.sshapiro-wilk test
.kolmogorow-smirnov test
.p-value가 유의할 경우(0.05보다 작을 경우)normal 하지 않는다 뜻
비대칭도
. 왜도(skewness)test
꼬리가 오른쪽으로 긴경우(right-skewness) ->왜도는 양수
꼬리가 왼쪽으로 긴 경우(left-skewness) -> 왜도는 음수
정규성을 따르는 경우 -> 중앙값과 평균값이 같고, 왜도는 '0'
. 첨도(kurtosis)test
데이터의 분포가 뾰족한 정도를 나타냄
중간이 뾰족한 경우 -> 첨도값이 0보다 큼
중간이 평평한 경우 -> 첨도값이 0보다 작음
정규분포 곡선을 따를 경우 -> 첨도값 '0'
분산의 동질성(Homogeneity of variance)
. 분산(variance)가 집단별로 동질하다는 뜻
. t-test, ANOVA에서 가장 중요하다
. 등분산이 깨질경우 비교의 기준이 되는 표준편차(혹은 분산)을 다시 생각해봐야 한다.
. Test for Homegeneity of variances(Levene's test)
. p-value가 0.05보다 작아 유의할 경우 : 등분산 가정이 깨졌다는 의미이다(분산이 다르다)
. 등분산 가정이 깨질 경우
t-test의 경우
- welch test
- non-parametric test인 Mann-whitney U test사용
ANOVA의 경우
- welch test
- kruskal-wallis같은 non-parametric test사용(one-way ANVOA대용)
. 등분산이 깨진 경우 대안이 필요
- 데이터를 normalization: (최대값-최소값)
- 데이터를 standardization : 평균을 빼고 표준편차로 나누는 방법
- 데이터를 transformation : 경우에 따라 자연 log를 붙이는 방법
독립성이란
. 데이터를 모으는 방법과 관련이 있다
. 각 샘플은 램덤하게 결정되고 서로 독립이다.
. 문제가 되는 경우
- 서베이를 주변의 아는 사람에게만 하는 경우
- 서베이를 한 사람이 두 개이상 응답하는 경우
- 서베이를 특정한 특징이 있는 집단에게만 하는 경우
- 투약/비투약 그룹을 결정할때, 건강한 사람과 덜 건강한 사람, 청년과 노인을 의도적으로 서로 다른 그룹에 할당할 경우
위에 내용은 아래의 영상을 참고해서 정리하였습니다