통계&확률

T-test ,ANOVA-test 의 전제조건

Nova 2021. 4. 8. 22:11

T-test ,ANOVA-test 의 전제조건

 

1. 정규성(Normality)

    .비대칭도 - 왜도(skewness)

                 - 첨도(kurtosis)

2. 분산(혹은 표준편차)의 동질성(Homogeneity of variance)

3. 독립성

 

 

정규성(Normality)

 

데이터가 얼마나 정규분포처럼 생겼는가 이를 정규분포(normal distribution)를 잘 따른다고 표현한다.

즉, 평균값을 기준으로 값들이 퍼져있는 확률이 정규분포를 따른다는 뜻이다.

 

정규성 test

.sshapiro-wilk test

.kolmogorow-smirnov test

.p-value가 유의할 경우(0.05보다 작을 경우)normal 하지 않는다 뜻

 

비대칭도

.  왜도(skewness)test

 꼬리가 오른쪽으로 긴경우(right-skewness) ->왜도는 양수

 꼬리가 왼쪽으로 긴 경우(left-skewness) -> 왜도는 음수

 정규성을 따르는 경우 -> 중앙값과 평균값이 같고, 왜도는 '0'

 

. 첨도(kurtosis)test

 데이터의 분포가 뾰족한 정도를 나타냄

 중간이 뾰족한 경우 -> 첨도값이 0보다 큼

 중간이 평평한 경우 -> 첨도값이 0보다 작음

 정규분포 곡선을 따를 경우 -> 첨도값 '0'

 

 

분산의 동질성(Homogeneity of variance)

 

. 분산(variance)가 집단별로 동질하다는 뜻

. t-test, ANOVA에서 가장 중요하다

. 등분산이 깨질경우 비교의 기준이 되는 표준편차(혹은 분산)을 다시 생각해봐야 한다.

. Test for Homegeneity of variances(Levene's test)

. p-value가 0.05보다 작아 유의할 경우 : 등분산 가정이 깨졌다는 의미이다(분산이 다르다)

. 등분산 가정이 깨질 경우

  t-test의 경우

    - welch test

    - non-parametric test인 Mann-whitney U test사용

  ANOVA의 경우

   - welch test

   - kruskal-wallis같은 non-parametric test사용(one-way ANVOA대용)

 

. 등분산이 깨진 경우 대안이 필요

 - 데이터를 normalization: (최대값-최소값)

 - 데이터를 standardization : 평균을 빼고 표준편차로 나누는 방법

 - 데이터를 transformation : 경우에 따라 자연 log를 붙이는 방법

 

 

독립성이란

 

. 데이터를 모으는 방법과 관련이 있다

. 각 샘플은 램덤하게 결정되고 서로 독립이다.

. 문제가 되는 경우

  - 서베이를 주변의 아는 사람에게만 하는 경우

  - 서베이를 한 사람이 두 개이상 응답하는 경우

  - 서베이를 특정한 특징이 있는 집단에게만 하는 경우

  - 투약/비투약 그룹을 결정할때, 건강한 사람과 덜 건강한 사람, 청년과 노인을 의도적으로 서로 다른 그룹에 할당할 경우

 

 

위에 내용은 아래의 영상을 참고해서 정리하였습니다

youtu.be/ylJcRzxtvc4