● 분산 분석 (ANOVA, Analysis of variance)
여러 집단의 평균을 비교하는 데 사용된다.
이미 앞에서 살펴본 바와 같이 두 집단의 평균을 비교하는 통계적 기법은 t 검정이었는데, 분산분석은 두 집단 이상의 평균을 비교할 수 있다.
● 일원 분산 분석 (one-way ANOVA)
분산분석을 하려면 평균과 집단을 나타내는 변수가 필요하다.
이때 보려는 것은 평균의 차이이기 때문에 평균을 구하는 변수가 주목적이 되는 변수로, 종속 변수가 된다.
반면에 집단을 나타내는 변수는 범주형 변수이며, 독립 변수가 된다.
이처럼 종속 변수에는 수치형 값을 갖는 연속형 자료(continuous data)가, 독립 변수에는 수치형이 아닌 범주형 자료(categorical data)가 있는 경우, 분산분석을 사용할 수 있다.
앞서 주요목적은 평균의 차이를 보는 것이기 때문에 이때 종속 변수는 평균을 구할 수 있는 수치형 값을 가져야 한다.
반면, 독립 변수는 바로 집단을 표현하는 범주 값을 가져야 하며, 이를 범주형 자료라고 한다.
그리고 독립 변수에는 범주형 변수의 각 범주를 나타내는 요인의 수준을 고려하여 사용한다.
종속 변수의 평균을 독립 변수의 요인별로 구해서 비교하는 것을 일원 분산분석이라 한다.
전체 Y값의 평균은 다음과 표기한다.
또한 요인의 수준별로 자료를 나누어서 각 평균을 구할 수 있다.
각 요인에 속한 개별 관측값은 다음과 같다.
i = 1, 2, …, r은 요인(factor)의 수준(level)
j = 1, 2, …, n은 각 요인의 수준에 해당하는 관측값의 개수
μi : i번째 수준에서의 평균
Yij , εij : 각 i번째 수준에서 측정된 j번째 값과 이때의 오차를 의미한다.
오차라는 것은 해당 요인의 수준에 속한 개별 값과 해당 요인 수준의 평균의 차이이다.
특히 오차 εij는 서로 독립이며, 정규 분포 N(μi, σ^2)를 따른다고 가정한다.
분산분석은 종속 변수 관측값의 전체 변동을 비교하려는 요인 수준 간 차이에 의해서 발생하는 변동과 그외 요인에 의한 변동으로 나누어 분석하는 기법이다.
개별 관측값과 전체 관측값 평균의 차이는 다음과 같이 나눌 수 있다.
다루는 자료는 한 개의 값만 있지 않다는 것이다.
이런 계산을 통해 나온 여러 개의 값이 존재하니, 이제 이 값들을 하나의 값으로 표현하자.
이때 사용하는 것이 제곱합이다.
굳이 제곱해서 더해주는 이유는 어떤 관측값은 평균보다 작을 수도, 클 수도 있는데 단순하게 더하면 값들끼리 상쇄되는 경우가 발생하기 때문이다.
각 값들이 평균과 ‘얼마나’ 차이가 있는지가 중요한 정보인데, 더하면 이 정보들이 사라질 수 있으니 제곱해서 더하는 방법을 사용하는 것이다.
이제 위의 식 양변을 제곱하여 더하면 SST = SSTR + SSE로 표현할 수 있으며, 식으로는 다음과 같이 나타낼 수 있다.
여기서 SST를 자료가 갖는 변동량 혹은 어떤 정보의 총량이라고 하면, SSTR은 요인의 수준별 평균과 전체 자료의 평균의 차이를 알려주는 정보가 되고,
SSE는 요인의 수준별 평균과 전체 자료의 평균의 차이인 SSTR로 설명되지 않는 부분을 설명해준다.
SSTR이 클수록 자료의 전체 정보를 요인으로 잘 설명할 수 있다.
이렇게 계산된 값들을 일목요연하게 정리한 표를 일원 분산분석표(one-way ANOVA table)라고 한다.
MSTR(평균처리제곱)은 SSTR을 요인 수준별로 속하는 자유도(각 요인에 속하는 자료의 개수 - 1)로 나눠준 일종의 평균이고,
MSE(평균오차제곱)도 오차에 대해 같은 방식으로 계산했다.
MSTR과 MSE은 분산과 유사하게 계산된다.
F 통계량으로 요인 수준 간 평균을 검정하게 되는데, MSTR이 커지면 MSE은 작아지며, F 통계량 값은 커진다.
즉, 요인 수준이 설명하는 정도가 커지면 F 통계량도 커지고, 반면 요인이 자료의 변동을 잘 설명하지 못해서 오차 부분이 커지면 F 통계량은 작아진다.
F 통계량이 커지면 더 작은 p값을 기대할 수 있다.
이때 p값이 유의 수준보다 작으면 귀무 가설을 기각하고 대립 가설을 채택한다.
그리고 자료를 요인 수준별로 나누어 평균을 구했을 때 요인 수준별 평균은 같지 않다고 해석할 수 있다.
즉, 요인 수준에 따라 종속 변수의 평균이 다름을 의미한다.
● 다중 비교 (multiple comparison)
분산분석을 통해서 집단별 평균의 차이가 유의미한지를 검정할 수 있었다.
이 결과를 활용해서 더 필요한 정보는 “과연 어느 집단 사이에 평균의 차이가 통계적으로 유의한지를 알 수 있느냐” 일 것이다.
검정 결과에서 귀무 가설을 기각하는 경우에 요인 수준별 평균이 같지 않다는, 즉 차이가 있다는 결론을 내리게 된다.
이때, 어떤 요인의 수준 간 차이로 인해 이러한 결과가 나왔는지를 파악하고 싶을 때 사용하는 것이 다중 비교이다.
● 투키 HSD (Honestly Significant Difference)
투키 HSD검정은 스튜던트화 범위 분포(studentized range distribution)를 바탕으로 모든 두 집단의 평균 차이를 검정한다.
두 집단의 평균 차이가 없다고 귀무 가설을 고려하여, HSD 검정 결과로 나오는 p값을 통해 귀무 가설의 기각 여부를 판단한다.
t 분포와 비슷하며 스튜던트화 범위인 q값의 분포를 나타내는데, q는 비교하려는 두 집단 평균의 차이가 최대인 값을 두 집단의 표준편차로 나눠 얻고, 통계량의 역할을 하는 q는 HSD 검정에 사용된다.
이 결과에서 *는 유의한 평균의 차이임을 의미한다.
그룹 1과 2, 그룹 1과 3은 유의한 평균 차이를 제시하는 반면에 그룹 2와 3의 평균 차이인 -0.59는 유의하지 않음을 볼 수 있다.
'수학 > 기초 이산 수학' 카테고리의 다른 글
7-1 . 분석의 목적 (0) | 2022.10.20 |
---|---|
6-3 . 분산 분석 (0) | 2022.10.20 |
6-1 . 상관 분석 (0) | 2022.10.20 |
5-7 . 가설 검정의 오류 (0) | 2022.10.20 |
5-6 . 통계 검정 방법 (0) | 2022.10.20 |