● 포아송 회귀모형 (poisson regression)
선형 회귀모형은 변수 Y가 수치인 경우에 사용된다.
만약 변수 Y가 수치형 데이터이지만, 앞서 얘기된 조건을 만족하지 못하는 경우는 어떻게 될까? 선형 회귀 분석의 사용 조건을 만족하지 못하는 Y는 생각보다 많다.
예를 들어 0보다 큰 빈도를 갖는 Y를 생각해보자.
이때 Y를 빈도(count data)라 하는데, 이때 일반적인 선형 회귀모형을 사용하면 올바른 결과를 도출하기 어려울 것이다.
이 빈도에 대해서는 다른 종류의 회귀모형을 사용하는데 그게 바로 포아송 회귀모형이다.
포아송 회귀모형은 X와 Y의 관계가 비선형인 경우, 특히 Y값이 이산적이며 0이나 1에 많이 쏠린(skewed) 경우에 사용된다.
이때 Y는 이분산(heteroskedasitc)하여 등분산성이라는 가정을 만족시키지 못한다.
일반적인 선형 회귀 분석에서는 Y의 예측값이 양수만 나오도록 하기는 어렵다.
포아송 회귀모형은 정규방정식(OLS, Ordinary Least Square)과는 다른 추정 방법을 사용하기에 로그 선형모형(loglinear model)이라고도 불린다.
이 모형에서는 변수 Y가 포아송 분포를 따르는 것을 가정하며 이때 종속 변수는 특정 지역, 개인에게서 특정 사건의 빈도에 대한 데이터이기 때문에 음수는 나오지 않는다.
Y값의 분포가 그림과 같이 좌측으로 쏠려 있다면 포아송 회귀모형을 적용하는 것을 고려한다.
하지만 포아송 회귀모형도 역시 회귀모형이기 때문에 X와 Y의 관계를 식으로 나타내고자 한다.
이때 X와 Y의 관계가 비선형이기 때문에 직선식으로 나타내려면 X와 Y의 관계를 선형 관계로 변환해야 한다.
이런 경우 Y를 변환하는데, Y에 로그(log) 함수를 적용한다.
log(Y)는 X와 선형 관계를 갖게 되면서 직선식으로 나타낼 수 있다.
이때 Y에 적용하는 로그 함수를 연결(link) 함수라고 부른다.
● 모형 적합도
포아송 회귀모형의 모형 적합도는 편차(deviance)나 아카이케 정보 기준(AIC, Akaike Information Criteria)을 사용하고, 이 값들이 작을수록 모형은 좋다고 고려한다.
그리고 모형에 X가 한 개도 없을 때 구한 편차 값과 모형에 X를 넣어 구한 편차 값의 차이를 통해 X가 Y를 얼마나 잘 설명하는지를 살펴본다.
특정한 독립 변수를 포함한 모형의 편차와 포함하지 않은 모형의 편차를 비교한 후 p값으로 변수를 추가한 유의성을 볼 수 있다.
포아송 회귀모형은 Y의 과분포(overdispersion) 이슈가 있다.
포아송 분포는 평균과 분산이 같다는 특징이 있는데, 이 가정을 만족시키지 않고 Y의 분산이 평균보다 큰 경우에는 과분포가 발생한다.
이 경우 계수는 동일하게 계산된다 하더라도 표준편차가 변하여 검정 통계량 및 p값도 영향을 받으며,
계수에 대한 해석도 영향을 받을 수 있어 어렵게 구한 모형을 활용하지 못할 수도 있다.
'수학 > 기초 이산 수학' 카테고리의 다른 글
8-1 . 머신러닝 (0) | 2022.10.21 |
---|---|
7-6 . 로지스틱 회귀모형 (0) | 2022.10.21 |
7-4 . 예측 & 오차 측정 (0) | 2022.10.21 |
7-3 . 선형 회귀 분석의 주요 개념 (0) | 2022.10.21 |
7-2 . 선형 회귀 분석 (0) | 2022.10.21 |