본문 바로가기
수학/기초 이산 수학

7-4 . 예측 & 오차 측정

by mogazi 2022. 10. 21.

 

  샘플링

 

전체 데이터에서 표본을 추출하는 과정

 

 

 

 

 

◇ 무작위 추출 (simple random sampling)

 

주어진 데이터에서 무작위로 추출하는 것을 단순 무작위 추출이라 한다. 

이때 무작위로 추출하되, 한 번 추출된 숫자를 또 추출할 수 있는지의 여부에 따라 복원 추출과 비복원 추출로 나눌 수 있다. 

 

 

 

 

 

 

◇ 층화 무작위 추출 (stratfied random sampling) 

 

 

값을 추출할 때 그 값이 갖는 범주 값을 고려하여 범주별로 층에서 무작위로 추출하는 것을 층화 무작위 추출이라고 한다.

이중에서도 각 층에서 동일한 크기로 추출하는 동일배분법과 각 층의 크기에 비례하여 표본을 배분하는 비례배분법 등이 있다.

 

 

 

 

 

 

 

 

 

 

  데이터 파티셔닝 (data partitioning)

 

 

전체 데이터를 훈련 데이터와 테스트 데이터로 나누려면 비복원 단순 무작위 추출을 통해 훈련 데이터에 포함될 행을 무작위로 선택해야 한다. 

이때 선택되지 않은 나머지 행은 테스트 데이터로 사용된다. 

 

 

이러한 과정을 데이터 파티셔닝이라고 하며, 일반적으로 7:3이나 8:2의 비율로 훈련 데이터와 테스트 데이터를 나눈다. 

훈련 데이터로 찾아낸 직선식에 테스트 데이터의 X를 대입하면 Y가 ‘예측’된다. 

 

 

이제 예측한 Y 정답 Y 비교하면 모형이 얼마나 작동하는지를 가늠할 있다.

'수학 > 기초 이산 수학' 카테고리의 다른 글

7-6 . 로지스틱 회귀모형  (0) 2022.10.21
7-5 . 포아송 회귀모형  (0) 2022.10.21
7-3 . 선형 회귀 분석의 주요 개념  (0) 2022.10.21
7-2 . 선형 회귀 분석  (0) 2022.10.21
7-1 . 분석의 목적  (0) 2022.10.20