본문 바로가기
수학/기초 이산 수학

5-3 . 연속형 확률 분포

by mogazi 2022. 10. 20.

 

  연속형 확률 분포(continuous probability distribution) 

 

 

어떤 구간에 속한 모든 점에서 연속적으로 값을 취할 수 있는 경우에는 연속형 확률 분포를 사용한다.

 

 

확률 변수 X가 취할 수 있는 값이 무한하여, 확률 변수의 확률 분포가 연속적인 곡선으로 나타난다. 

X가 취할 값을 특정하기 어려우므로 연속형 확률 밀도 함수는 하나의 값이 아닌 어떤 구간에서의 확률 값을 구하게 되며, 이때 적분을 사용한다. 

 

 

P(a ≤ X ≤ b)는 확률 밀도 함수에서 실수 a, b 구간에서의 곡선 아래의 면적이며, 이 값이 확률 값으로 사용된다.

 따라서 어떤 구간에서 적분을 통해 확률 값을 갖게 되는 셈이다.

 

 

 

 

 

 

 

 

  확률 분포의 특징

 

 

 

우선, 확률 밀도 함수가 나타내는 모든 확률 값을 더하면 표본 공간의 모든 대상 사건에 대한 확률 값의 합이므로(대상의 모든 발생 가능한 경우는 전체이므로) 이 값은 1이 된다. 

 

즉, 확률 밀도 함수의 모든 구간에서의 적분 값은 1이 된다.

 

 

 

주의할 점은 확률 변수 Y가 a 지점일 때의 확률은 0이라는 것이다. 

 

 

연속형인 경우, a 지점을 특정하기 어렵다.

a라는 값은 연속형에서는 ‘찰나’로 연속적으로 흘러가는 시간의 한 순간을 의미하기 때문에(아주 작은 값), 그때의 확률은 0인 것으로 고려한다. 

그래서 연속형인 경우에는 특정 구간의 확률 값을 구하는 것이다.

 

 

 

 

특정 구간에서의 확률 값도 적분으로 구할 수 있으며, 이러한 작업을 위해 누적 분포 함수(Cumulative Distribution Function, CDF)를 사용한다. 

 

 

 

누적 분포 함수는 특정 구간에서의 확률 밀도 함수(Probability Density Function, PDF)의 값을 적분한 것으로, 대문자 F로 주로 표현한다. 

 

 

 

 

 

 

 

 

  정규 분포 (normal distribution)

 

 

정규 분포의 모양과 위치는 분포의 평균(μ)과 표준편차(σ)로 결정된다.

 

 

정규 분포의 확률 밀도 함수는 평균을 중심으로 대칭인 종 모양을 가지며, 

정규 분포를 나타내는 정규 곡선(normal curve)은 X축에 맞닿지 않으므로 확률 변수 X가 취할 수 있는 값의 범위는 -∞ < X < +∞이다

 

 

 

 

 

 

이때 평균은 μ이고, 표준편차가 σ인 정규 분포를 따르는 확률 변수 X를 다음과 같이 표현하기도 한다.

 

 

 

 

이러한 정규 분포를 평균 μ = 0, 표준편차 σ = 1이 되도록 표준화한 것을 표준 정규 분포라고 부른다.

이때 표준 정규 분포는 확률 변수 Z로 나타내며, N(0, 1^2)으로 표시한다.

 

 

 

 

 

 

 

  중심 극한 정리 (central limit theorem)

 

 

평균이 μ이고 분산이 σ^2인 모집단에서 표본 크기가 n이 되도록 표본을 랜덤하게 뽑는 경우를 생각해보면,

이때 표본의 크기 n이 충분히 크다면 모집단의 분포 모양에 관계없이 표본들의 평균값의 분포인 X는 근사적으로 정규 분포를 따르게 된다. 

 

 

 

 

모집단이 정규 분포를 따르는 경우이든, 정규 분포가 아닌 임의의 분포를 따르는 경우이든 표본의 크기가 충분히 크다면 표본 평균의 분포는 정규 분포를 따른다. 

 

 

표본 평균의 분산은 표본의 크기(n)로 나눈 것만큼 작아지기 때문이다. 

 

 

 

 

 

 

 

 

 

 

  t 분포  (t - distribution)

 

 

 

 

t 분포는 서로 다른 두 집단의 평균에 대한 통계 검정에 주로 사용된다. 

정규 분포로부터 표본을 구할 때 표본의 크기가 크지 않고, 표준편차(σ)를 모른다면, 자유도가 n - 1인 t 분포를 따른다.

 

 

 

 

 

t 분포의 특징은 모양이 정규 분포보다 퍼져 있으며 표본의 크기에서 1을 뺀 자유도 n - 1이 커질수록 정규 분포에 근접한다. 

 

 

표본의 크기가 작아 표본의 표준편차(s)가 모집단의 표준편차(σ)보다 불확실성이 크기 때문인데, 

표본의 크기 n이 커질수록 표본의 표준편차가 모집단의 표준편차에 접근한다.

그래서 t 분포는 자유도에 따라 달라진다.

 

 

 

 

 

 

 

  χ2 분포  (카이제곱 분포)

 

 

단일 모집단에서 서로 독립적인 확률 변수를 제곱한 후 더하는 분포는 χ2 분포를 이용하여 나타낼 수 있다. 

χ2 분포는 두 개 이상의 서로 다른 범주에 대해 가설 검정, 모분산의 추정 등에 많이 사용된다. 

 

 

특히, 정규 모집단 N(μ, σ2)으로부터의 확률 표본 χ1, χ2,....,χn 분포를 자유도 n - 1인 χ2 분포라 한다.

 

 

 

 

 

 

 

 

 

 

  F 분포  (F - distribution)

 

 

 

 

 

 

 

F 분포는 서로 다른 두 개 이상의 모집단의 분산이 서로 같은지를 확인할 때 사용된다. 

 

즉, 두 분포의 분산이 따르는 분포이며, 뒷부분에 나오는 분산분석과 회귀 분석의 결과를 해석할 때 주로 활용된다.

 

'수학 > 기초 이산 수학' 카테고리의 다른 글

5-5 . 가설 검정  (0) 2022.10.20
5-4 . 통계적 추론  (0) 2022.10.20
5-2 . 이산형 확률 분포  (0) 2022.10.20
4-6 . 코드  (0) 2022.10.20
4-5 . 조건부 확률 & 베이즈 정리  (0) 2022.10.20