mogazi 2022. 9. 25. 02:03

 

  지도 학습 (Supervised Learning) 

 

 

입력(Input, Feature)과 출력(Target)이 쌍으로 주어진 훈련 데이터(Training data)를 이용한 학습.

 

 

 

결괏값이 주어진, 즉 레이블(Label)이 있는 데이터를 기반으로 입력 변수와 출력 변수를 매핑하는 함수를 찾은 후, 새로운 입력에 대한 예측을 수행한다. 

 

 

 

 

 

 

 

데이터 유형 : 이산형 데이터 

결과 : 훈련 데이터의 레이블 중 하나를 예측

예시 : 학습 데이터를 A, B, C 그룹 중 하나로 매핑 (스팸 메일 필터링)

 

 

 

 

 

 

 

 

 

데이터 유형 : 연속형 데이터

결과 : 연속된 값을 예측

예시 : 결과값이 어떤 값이든 나올 수 있다. (주가 분석 예측)

 

 

 

 

 

 

 

 

 

K - 최근접 이웃

 

 

새로운 입력 ( 학습에 사용하지 않은 새로운 데이터) 을 받았을 때 기존 클러스터에서 모든 데이터와 인스턴스 (instance)  기반 거리를 측정한 후 가장 많은 속성을 가진 클러스터에 할당하는 분류 알고리즘이다.

 

 

과거 데이터를 저장해두고, 필요할 때 마다 비교를 수행하는 방식이다.

따라서 K 값의 선택에 따라 새로운 데이터에 대한 분류 결과가 달라질 수 있음에 유의!

 

 

* 인스턴스 : 새로운 데이터가 들어왔을 때 데이터와 데이터 사이의 거리를 측정한 관측차 (데이터 값) 를 의미한다.

 

 

 

 

 

 

 

 

 

 

서포트 벡터 머신

 

 

주어진 데이터에 대한 분류

 

 

분류되지 않은 새로운 데이터가 나타나면 결정 경계(기준선)를 기준으로 경계의 어느 쪽에 속하는지 분류하는 모델이다.

따라서 서포트 벡터 머신에서는 결정 경계를 이해하는 것이 중요하다.

 

 

 

 

 

 

 

 

 

 

 

Margin

 

 

결정 경계와 서포트 벡터 사이의 거리를 의미한다.

즉, 최적의 결정 경계는 마진을 최대로 두어야 한다.

 

* 서포트 벡터 : 결정 경계와 가까이 있는 데이터들

 

 

 

 

 

 

파라미터 C는 허용되는 오류 양을 조절한다. 

C값이 클수록 오류를 덜 허용하며 이를 하드 마진(hard margin)이라 부른다.

 반대로 C 값이 작을수록 오류를 더 많이 허용해서 소프트 마진(soft margin)을 만든다.

 

 

SVM에서는 선형으로 분리할 수 없는 점들을 분류하기 위해 커널(kernel)을 사용한다.

 

 

 

 

 

커널(kernel)은 원래 가지고 있는 데이터를 더 높은 차원의 데이터로 변환한다. 

2차원의 점으로 나타낼 수 있는 데이터를 다항식(polynomial) 커널은 3차원으로, RBF 커널은 점을 무한한 차원으로 변환한다.

 

RBF 커널에는 파라미터 감마(gamma)가 있다. 감마가 너무 크면 학습 데이터에 너무 의존해서 오버피팅이 발생할 수 있다.

 

 

 

 

 

 

 

 

 

 

 

결정 트리 (decision tree)

 

 

이상치가 많은 값으로 구성된 데이터 셋을 다룰 때 사용하면 좋다. 

또한 결정 과정이 시각적으로 표현되기 때문에 머신러닝이 어떤 방시긍로 의사 결정하는지 알고 싶을 때 유용하다.

 

 

결정 트리는 데이터를 1차로 분류한 후 각 영역의 순도 (homogeneity) 는 증가하고, 불순도 (impurity) 와 불확실성 (uncertainty) 는 감소하는 방향으로 학습을 진행한다.

 

 

결정 트리에서 불확실성을 계산하는 방법은 2가지이다.

 

 

 

 

 

 

 

 

1. 엔트로피 (entropy)

 

확률 변수의 불확실성을 수치로 나타낸 것으로, 엔트로피가 높을수록 불확실성이 높다는 의미이다.

 

 

결론)  엔트로피가 증가하면  그 사건을 맞추기 위한 질문의 개수가 증가하고, 그에 따라 정보량도 증가한다.

하지만 정보량이 많음에 따라 불확실성은 커진다.

 

 

 

 

 

 

 

 

2. 지니 계수 (Gini index) 

 

불순도를 측정하는 지표로, 데이터의 통계적 분산 정도를 정량화 해서 표현한 값이다.

즉, 원소 n개 중에서 임의로 2개를 추출했을 때, 추출된 2개가 서로 다른 그룹에 속해있을 확률을 의미한다.

 

 

-> 지니 계수가 높을수록 데이터가 분산되어 있다.