본문 바로가기
기초 통계

NO.5 정규분포, 표준정규분포

by 스터디마형 2024. 4. 2.

A. 정규분포 (Normal Distribution)

정규분포는 연속 확률 분포의 하나로, 많은 자연 현상이나 사회 현상에서 발생하는 데이터의 분포를 모델링하는 데 자주 사용됩니다.

확률 변수 \( X \)가 평균이 \( mu \), 분산이 \(\sigma^2 \)이고 다음 확률함수를 가질때 \( X \)는 정규분포를 따른다고 함.

정규분포(normal distribution)는 가장 대표적인 연속 확률 분포(continuous probability distribution)이며 가우스 분포(Gaussian distribution)라고도 합니다.

1. 확률밀도함수 (PDF)

정규분포의 확률밀도함수는 다음 공식으로 주어집니다:

$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$

이 함수는 모든 실수 ( x )에 대해 정의되며, ( -\infty < x < \infty ) 범위에서 적용됩니다.

2. 특징

  • 정규분포는 평균을 중심으로 종모양의 좌우대칭적인 곡선 형태를 가집니다.
  • 평균 \( mu \) 주위에 데이터가 집중되어 있으며, 표준편차 ( \sigma \)로 분포의 폭이 결정됩니다.
  • 모든 정규분포는 평균과 표준편차에 의해 완전히 정의됩니다.
  • 평균은 분포의 위치(중심)를, 분산은 종의 모양을 결정짓는다.
    (분산이 작을 수록 뾰족한 종 모양이, 클 수록 완만한 종 모양이된다

3. 기대값과 분산

  • 기대값(평균):\( E[X] = \mu \)
  • 분산: \({Var}[X] = \sigma^2 \)

B. 표준정규분포 (Standard Normal Distribution)

표준정규분포는 평균이 0이고, 표준편차가 1인 특별한 정규분포입니다.

\( X \sim N(\mu, \sigma^2) \)일 때, 정규분포의 표준화과정에 대해

\( Z = \frac{X - \mu}{\sigma} \)이면,

\( Z \sim N(0, 1) \)이 된다,

이 때의 평균은 0이고 분산이 1인 정규분포를 표준정규분포라 한다.

1. Z-점수

  • 어떤 값의 Z-점수는 해당 값이 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 나타냅니다.
  • 즉 데이터의 기준을 표준편차로 \ (X-m \ ) 값이 σ 의 몇배인지 보겠다
  • Z-점수 변환은 데이터를 표준화하는 데 사용됩니다.

2.참조

※ 변환을 위한 사전 가정

  1. 표준화 공식 : \( Z = \frac{X-\mu}{\sigma} \)
  2. 기대값 공식 : \( E(aX + b) = aE(X) \pm b \)
  3. 분산 공식 : \( V(aX + b) = a^2 V(X) \)

※ 표준 정규분포의 평균이 0인 이유

1) 정규 분포를 \( Z = \frac{X-\mu}{\sigma} \)로 표준화한다. \( X \)가 평균 \( \mu \), 표준편차 \( \sigma \)인 정규분포라고 하면 \( Z \)는 평균이 0이다.

 

2) 만약, \( Z = \frac{X-\mu}{\sigma} \)이면, \( Z \)의 기대값은 \( E(Z) \)는 0이라는 것을 보일 수 있다.

 

\( E(Z) = E \left( \frac{X-\mu}{\sigma} \right) \)


\( = E \left( \frac{X}{\sigma} - \frac{\mu}{\sigma} \right) \)


\( = \frac{1}{\sigma} \cdot E(X) - \frac{\mu}{\sigma} \)


\( = \frac{\mu}{\sigma} - \frac{\mu}{\sigma} \)


\( = 0 \)

※ 표준 정규분포의 분산이 인 이유

1) \( V(Z) = E \left( \left( Z - E(Z) \right)^2 \right) \)

 

여기서 \( E(Z) \)는 이미 0이라고 했으므로,

 

\( V(Z) = E(Z^2) \)


\( = E \left( \left( \frac{X-\mu}{\sigma} \right)^2 \right) \)


\( = \frac{1}{\sigma^2} \cdot E \left( (X-\mu)^2 \right) \)


\( = \frac{1}{\sigma^2} \cdot \sigma^2 \)


\( = 1 \)

 

2) \( V(aX+b) = a^2 V(X) \)를 이용하여 분산을 구할 때 \( V(aX+b) \)의 값은 \( a^2 V(X) \)이다.

※ 결론

따라서, \( V(Z) \)는 \( Z = \frac{X-\mu}{\sigma} \)에서

\( V(Z) = V \left( \frac{X-\mu}{\sigma} \right) \)


\( = V \left( \frac{X}{\sigma} - \frac{\mu}{\sigma} \right) \)


\( = \frac{1}{\sigma^2} V(X) \)


\( = \frac{1}{\sigma^2} \cdot \sigma^2 \)


\( = 1 \)

 

이므로, \( Z \)의 분산은 항상 1이다.

3. 확률밀도함수

표준정규분포의 확률밀도함수는 다음과 같습니다:

$$
\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}z^2}
$$

출처 :&nbsp;https://digital-play.tistory.com/84

4. Z-테이블

  • Z-테이블은 표준정규분포에서 주어진 Z-점수 이하의 데이터 비율을 나타냅니다.
  • Z-테이블을 사용하여, 특정 Z-점수에 해당하는 확률을 찾을 수 있습니다.

정규분포와 표준정규분포는 통계학에서 광범위하게 사용되며, 다른 많은 확률 분포의 기초를 이루는 중요한 분포들입니다.

C. 표준정규 확률변수의 (1 - α) 분위수 : \( Z_{\alpha} \)

\( Z \sim N(0,1) \)일 때, \( P(Z < c) = 1 - \alpha \)를

만족하는 \( Z \)의 \( (1 - \alpha) \) 분위수는 \( Z_{\alpha} \)로 표기.

어떤 학률변수가 얘보다 큰 값이 나올 확룰이 \(\alpha) \)

즉 \( Z_{\alpha} \)라는 표기를 보면은 이 값보다 클 확률

오름 꼴일 확률이 이거다. 이렇게 기억하면 된다.

 

 

\( Z_{\0.05} \) 즉 0.95분위수인 값을 찾고자 하면, 표에서 0.95를 먼저 찾은 뒤 이에 해당하는 행의 이름 1.6과 열의 이름 0.05을 더해 누적확률 값이 1.65임을 볼 수 있다.

 

 

이 중 가장 자주 쓰이는 분위수는 0.05, 0.01 등이며, 이들의 누적확률은 다음과 같다.

  • P(Z≤1.645)=0.95
  • P(Z≤1.96)=0.975
  • P(Z≤2.326)=0.99
  • P(Z≤2.576)=0.995