A. 정규분포 (Normal Distribution)
정규분포는 연속 확률 분포의 하나로, 많은 자연 현상이나 사회 현상에서 발생하는 데이터의 분포를 모델링하는 데 자주 사용됩니다.
확률 변수 \( X \)가 평균이 \( mu \), 분산이 \(\sigma^2 \)이고 다음 확률함수를 가질때 \( X \)는 정규분포를 따른다고 함.
정규분포(normal distribution)는 가장 대표적인 연속 확률 분포(continuous probability distribution)이며 가우스 분포(Gaussian distribution)라고도 합니다.
1. 확률밀도함수 (PDF)
정규분포의 확률밀도함수는 다음 공식으로 주어집니다:
$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$
이 함수는 모든 실수 ( x )에 대해 정의되며, ( -\infty < x < \infty ) 범위에서 적용됩니다.
2. 특징
- 정규분포는 평균을 중심으로 종모양의 좌우대칭적인 곡선 형태를 가집니다.
- 평균 \( mu \) 주위에 데이터가 집중되어 있으며, 표준편차 ( \sigma \)로 분포의 폭이 결정됩니다.
- 모든 정규분포는 평균과 표준편차에 의해 완전히 정의됩니다.
- 평균은 분포의 위치(중심)를, 분산은 종의 모양을 결정짓는다.
(분산이 작을 수록 뾰족한 종 모양이, 클 수록 완만한 종 모양이된다
3. 기대값과 분산
- 기대값(평균):\( E[X] = \mu \)
- 분산: \({Var}[X] = \sigma^2 \)
B. 표준정규분포 (Standard Normal Distribution)
표준정규분포는 평균이 0이고, 표준편차가 1인 특별한 정규분포입니다.
\( X \sim N(\mu, \sigma^2) \)일 때, 정규분포의 표준화과정에 대해
\( Z = \frac{X - \mu}{\sigma} \)이면,
\( Z \sim N(0, 1) \)이 된다,
이 때의 평균은 0이고 분산이 1인 정규분포를 표준정규분포라 한다.
1. Z-점수
- 어떤 값의 Z-점수는 해당 값이 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 나타냅니다.
- 즉 데이터의 기준을 표준편차로 \ (X-m \ ) 값이 σ 의 몇배인지 보겠다
- Z-점수 변환은 데이터를 표준화하는 데 사용됩니다.
2.참조
※ 변환을 위한 사전 가정
- 표준화 공식 : \( Z = \frac{X-\mu}{\sigma} \)
- 기대값 공식 : \( E(aX + b) = aE(X) \pm b \)
- 분산 공식 : \( V(aX + b) = a^2 V(X) \)
※ 표준 정규분포의 평균이 0인 이유
1) 정규 분포를 \( Z = \frac{X-\mu}{\sigma} \)로 표준화한다. \( X \)가 평균 \( \mu \), 표준편차 \( \sigma \)인 정규분포라고 하면 \( Z \)는 평균이 0이다.
2) 만약, \( Z = \frac{X-\mu}{\sigma} \)이면, \( Z \)의 기대값은 \( E(Z) \)는 0이라는 것을 보일 수 있다.
\( E(Z) = E \left( \frac{X-\mu}{\sigma} \right) \)
\( = E \left( \frac{X}{\sigma} - \frac{\mu}{\sigma} \right) \)
\( = \frac{1}{\sigma} \cdot E(X) - \frac{\mu}{\sigma} \)
\( = \frac{\mu}{\sigma} - \frac{\mu}{\sigma} \)
\( = 0 \)
※ 표준 정규분포의 분산이 인 이유
1) \( V(Z) = E \left( \left( Z - E(Z) \right)^2 \right) \)
여기서 \( E(Z) \)는 이미 0이라고 했으므로,
\( V(Z) = E(Z^2) \)
\( = E \left( \left( \frac{X-\mu}{\sigma} \right)^2 \right) \)
\( = \frac{1}{\sigma^2} \cdot E \left( (X-\mu)^2 \right) \)
\( = \frac{1}{\sigma^2} \cdot \sigma^2 \)
\( = 1 \)
2) \( V(aX+b) = a^2 V(X) \)를 이용하여 분산을 구할 때 \( V(aX+b) \)의 값은 \( a^2 V(X) \)이다.
※ 결론
따라서, \( V(Z) \)는 \( Z = \frac{X-\mu}{\sigma} \)에서
\( V(Z) = V \left( \frac{X-\mu}{\sigma} \right) \)
\( = V \left( \frac{X}{\sigma} - \frac{\mu}{\sigma} \right) \)
\( = \frac{1}{\sigma^2} V(X) \)
\( = \frac{1}{\sigma^2} \cdot \sigma^2 \)
\( = 1 \)
이므로, \( Z \)의 분산은 항상 1이다.
3. 확률밀도함수
표준정규분포의 확률밀도함수는 다음과 같습니다:
$$
\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}z^2}
$$
4. Z-테이블
- Z-테이블은 표준정규분포에서 주어진 Z-점수 이하의 데이터 비율을 나타냅니다.
- Z-테이블을 사용하여, 특정 Z-점수에 해당하는 확률을 찾을 수 있습니다.
정규분포와 표준정규분포는 통계학에서 광범위하게 사용되며, 다른 많은 확률 분포의 기초를 이루는 중요한 분포들입니다.
C. 표준정규 확률변수의 (1 - α) 분위수 : \( Z_{\alpha} \)
\( Z \sim N(0,1) \)일 때, \( P(Z < c) = 1 - \alpha \)를
만족하는 \( Z \)의 \( (1 - \alpha) \) 분위수는 \( Z_{\alpha} \)로 표기.
어떤 학률변수가 얘보다 큰 값이 나올 확룰이 \(\alpha) \)
즉 \( Z_{\alpha} \)라는 표기를 보면은 이 값보다 클 확률
오름 꼴일 확률이 이거다. 이렇게 기억하면 된다.
\( Z_{\0.05} \) 즉 0.95분위수인 값을 찾고자 하면, 표에서 0.95를 먼저 찾은 뒤 이에 해당하는 행의 이름 1.6과 열의 이름 0.05을 더해 누적확률 값이 1.65임을 볼 수 있다.
이 중 가장 자주 쓰이는 분위수는 0.05, 0.01 등이며, 이들의 누적확률은 다음과 같다.
- P(Z≤1.645)=0.95
- P(Z≤1.96)=0.975
- P(Z≤2.326)=0.99
- P(Z≤2.576)=0.995
'기초 통계' 카테고리의 다른 글
No08_수치적 기술통계 - 연관성 (1) | 2024.04.14 |
---|---|
No07_수치적 기술통계 - 변동성 (1) | 2024.04.13 |
No4.이항분포, 포아송분포, 지수분포, 감마분포 (1) | 2024.03.28 |
No3.확률변수와 확률분포의 특성치 (0) | 2024.03.28 |
NO2.베이즈 정리 (0) | 2024.03.27 |