본문 바로가기
수학/기초 이산 수학

7-2 . 선형 회귀 분석

by mogazi 2022. 10. 21.

 

  선형 회귀 분석 (linear regression analysis)

 

 

선형 회귀 분석은 영국의 우생학자 프랜시스 골턴(Francis Galton, 1822-1911)에 의해 시작되었다.

 

그렇다면 왜 직선식을 굳이 찾아내야 할까? 

 

 

앞에서 데이터를 설명할 때 “3시간 공부하면 30점, 5시간 공부하면 50점, 7시간 공부하면 70점이야”라고 해도 사실은 큰 문제가 없을 수 있다. 

하지만 대상이 되는 학생이 100명이라고 하자. 

데이터를 설명하는 데만 해도 수많은 시간이 걸릴테고 설명하는 사람, 듣는 사람 모두 무척이나 불편할 것이다. 

 

 

이미 통계량을 통해서 주어진 데이터를 이해하는 데 요약 정보가 효과적이라는 것을 이미 살펴보았다. 

그런 이유로, 평균이나 편차 등 데이터에 대한 요약 정보를 구하고 사용해왔다. 

그렇다면 공부 시간과 성적의 관계에서도 요약 정보를 사용하면 좀 더 효율적으로 자료를 이해할 수 있을 것이다. 

그리고 그 역할을 직선식이 하게 되는 셈이다.

 

 

 

 

 

 

 

앞에서 공분산이나 상관계수로 두 변수의 관계를 살펴보았다. 

이 두 요약 정보는 한 변수가 움직일 때 다른 변수가 어떻게 움직이는지에 대한 정보를 제공한다. 

 

 

하지만 이 요약 정보는 두 변수의 관계를 나타내지만 모형화하지는 못한다. 

변수 사이의 인과관계까지는 나타내지 못한다. 

 

 

 

이때 변수 X가 독립 변수, 설명(predictor) 변수가 되고 변수 Y가 종속 변수, 반응(response) 변수가 된다. X가 Y에 영향을 미치는 관계를 설정한 것이다.

 

 

 

 

이 직선을 수식화하는 것은 직선식을 찾는 것과 같으며 Y 절편과 기울기가 필요하다. 

직관적으로 이해하면 선형 회귀는 주어진 데이터에 Y 절편과 기울기로 나타낸 직선(straight line)을 적합(fitting)시키는 과정으로 볼 수 있다. 

 

 

이때 Y 절편과 기울기가 미지수이며 이 값은 데이터를 통해 추정할 수 있다.

 

 

 

 

 

 

 

 

 

 

  잔차 (residual)

 

 

직선을 어떻게 그려야 두 변수를 잘 나타낼 수 있을까? 

 

바로 앞의 두 미지수를 구하는 과정이다. 

이에 앞서 잔차라는 개념을 먼저 살펴보자. 

잔차는 선형 회귀 식에 의해 각 예측한 Y와 실제 Y의 차이를 나타낸다.

 

 

 

 

 

잔차라는 값은 실제 Y값이 직선으로 표현되는 Y값에서 얼마나 떨어져 있는지를 알려준다. 

그림에서 보면 각 점들은 실제 Y값이고, 주황색 직선은 예측된 Y값을 나타낸다. 

각각의 실제 Y와 예측한 Y의 차이는 회색 실선으로 나타내고 이 회색 실선이 잔차이다.

 

 

 

 

 

잔차는 바로 예측값과 실제 값의 차이이기 때문에 가급적 작을수록 좋다. 

개별 Y값이 아닌 전체 Y 값들의 관점에서도 잔차들을 모두 더한 것이 작아야 좋겠지만, 여기에 한 가지 문제가 있다. 

 

 

 

바로 실제 값이 예측값보다 작은 경우에는 잔차가 음수로 나와서 양수인 잔차와 더해지면 즉, 실제로 각 잔차가 있음에도 불구하고 모든 잔차를 더하면 그 값이 0이 되는 문제가 발생한다. 

 

그렇기 때문에 잔차의 제곱을 모두 더해서 잔차제곱합이 최소가 되게 하는 직선을 찾아야 한다. 

그러한 직선의 미지수 Y 절편과 기울기를 찾는 것이 선형 회귀 분석이다.

 

 

 

 

 

 

 

 

 

 

 

  잔차의 확률 분포

 

 

통계적 추론을 위해 선형 회귀 분석에서는 잔차의 확률 분포에 대해 몇 가지를 가정한다. 

 

 

잔차의 등분산성과 정규성을 갖는다는 가정이다. 

이는 잔차가 모두 같은 분산을 갖는 정규 분포를 따른다는 것을 의미한다. 

물론, 기본적으로는 종속 변수와 독립 변수의 선형성에 대한 가정과 확인이 전제되어야 한다.

 

 

 

 

 

 

 

 

 

 

  최소 제곱법 (Least Squares Estimation)

 

 

잔차의 제곱합을 최소화하는 Y 절편과 기울기를 찾는 방법

 

 

 

앞의 식에서 예측한 Y는 다시 두 미지수가 포함된 X에 대한 식으로 치환할 수 있으며, 그 값이 최소가 되는 두 미지수를 찾기 위해서는 이 식을 각 미지수로 적분을 한 값이 0이 되면 된다.

 

그렇게 되면 미지수가 두 개이고, 식도 두 개인 방정식을 푸는 문제가 되어 다음과 같은 식을 통해 구할 수 있다.

 

 

 

 

 

 

 

선형 회귀 분석을 하는 과정에서 앞의 식을 직접 계산하지는 않는다. 

그저 선형 회귀 분석의 결과로 나온 기울기와 절편만 해석하면 된다

'수학 > 기초 이산 수학' 카테고리의 다른 글

7-4 . 예측 & 오차 측정  (0) 2022.10.21
7-3 . 선형 회귀 분석의 주요 개념  (0) 2022.10.21
7-1 . 분석의 목적  (0) 2022.10.20
6-3 . 분산 분석  (0) 2022.10.20
6-2 . 분산 분석  (0) 2022.10.20