선형회귀는 간단한 상관관계에 대해 사용할 수 있다.
예를 들면, 키와 몸무게의 관계나 공부량과 성적의 관계와 같이 상관되는 특성이 단순한 경우.
그래프로는 증가함수를 보여주거나 감소함수를 보여주는 경우를 의미한다.
회귀는 과학실험을 통해 팩터를 찾고 공식을 만들어가던 것과 같이
주어진 데이터를 해석해 적당한 그래프 모양을 수학식으로써 표현해나가는 과정이라고 볼 수 있는데
그 중에서 선형 회귀는 일차식으로 이루어진 식으로 결정짓는 것을 의미.
- 오차를 최소화하는 방법
1. 분석적인 방법
2. 공분산 및 상관 값 사용
3. 그래디언트 디센트 방법 ( 머신 러닝에서 가장 많이 사용되는 방법 )
- 분석적 접근법
정확한 해를 얻기 위해 여러 선형 대수 기법을 사용한다.
● 장단점
선형 대수학 기법을 사용해 최소 오차의 해를 계산하는 접근법은 아주 쉬운 표현식을 준다.
이 방법은 바로 결정되는 방법이므로 연산 적용후에 추가적인 추측이 필요없다.
그러나, 행렬 역행렬과 행렬곱은 많은 계산이 필요한 작업이다.
일반적으로 약 O(n^2) 에서 O(n^3) 까지의 하한선을 가지므로 샘플 수가 증가하면 해결하기 어려워 질 수도 있다.
또한, 현재 하드웨어의 부동 소수점 능력을 사용하기 때문에 구현 방법에 따라 정확도가 제한될 수도 있다.
- 공분산
공 + 분산으로 여기서 ‘공’은 여럿을 뜻하는 공이다. 공동체의 공과 같은 의미.
변수 “둘” 로 만든 분산이다.
확률 변수 쌍 간의 시스템적인 관계의 척도, 한 변수의 변화는 다른 변수의 변화에도 영향을 미친다.
따라서 값이 0이면 직접 선형 관계가 없음을 나타내며, 그 값은 블롭(blob, 얼룩) 모양의 분포를 형성하는 경향이 있다.
공분산은 측정 단위에 의해 영향을 받지 않는다.
단위를 변경하더라도 두 변수간 관계의 강도는 변하지 않는다.






