Median(중앙값) 구하는 방법
Median(중앙값) 구하는 방법
중앙값(Median)을 구하는 방법에 대해 더 자세히 알아보겠습니다.
핵심 아이디어는 항상 동일합니다. 중앙값은 전체 확률 분포를 정확히 반으로 나누는 ‘가운데’ 값입니다. 즉, 중앙값을 기준으로 왼쪽 절반에 50%, 오른쪽 절반에 50%의 확률이 분포한다는 뜻입니다.
어떤 방법을 사용하는지는 다루는 데이터가 연속적인지(PDF로 설명) 이산적인지(PMF로 설명)에 따라 달라집니다.
CDF를 이용하는 방법 (가장 일반적인 방법)
중앙값을 찾는 가장 확실하고 보편적인 방법은 누적 분포 함수(CDF), 즉 \(F(x)\)를 이용하는 것입니다. CDF는 특정 값 \(x\)보다 작거나 같은 값이 나올 누적 확률을 의미한다는 점을 기억하세요.
중앙값(\(m\))을 찾으려면, CDF 값이 정확히 0.5가 되는 지점의 \(x\)값을 찾으면 됩니다.
\[F(m) = 0.5\]이는 CDF의 역함수를 이용해 0.5에 해당하는 값을 찾는 것과 같습니다.
\[m = F^{-1}(0.5)\]CDF 그래프가 왼쪽부터 확률을 계속 더해나가는 그래프라고 생각해보세요. 중앙값은 이 누적값이 정확히 절반(y축의 0.5 지점)에 도달했을 때의 x값입니다.
연속 분포의 경우 (PDF 이용)
확률 밀도 함수(PDF), 즉 \(f(x)\)가 주어진 경우, 중앙값(\(m\))은 그 지점까지의 곡선 아래 면적이 정확히 0.5가 되는 지점입니다. 이는 적분을 통해 방정식을 풀어 구합니다.
\[\int_{-\infty}^{m} f(x) \,dx = 0.5\]단계별 계산법:
- 적분식 세우기: 주어진 PDF, \(f(x)\)에 대한 적분식을 작성합니다. 적분의 아래 끝은 함수 정의역의 시작점(보통 \(-\infty\) 또는 0)이고, 위 끝은 \(m\)이 됩니다.
 - 적분값을 0.5로 설정하기: \(\int_{\text{시작점}}^{m} f(x) \,dx = 0.5\) 라는 방정식을 만듭니다.
 - m에 대해 풀기:
- \(f(x)\)를 적분합니다.
 - 적분한 함수에 아래 끝과 \(m\)을 대입하여 값을 구합니다.
 - 그 결과로 나온 \(m\)에 대한 방정식을 풉니다.
 
 
예시:
PDF가 \(0 \le x \le 1\) 범위에서 \(f(x) = 2x\)로 정의되었다고 가정해 봅시다.
- 적분식 세우기: 정의역이 0에서 시작하므로, \(\int_{0}^{m} 2x \,dx = 0.5\)
 - 적분 계산하기: \(2x\)의 적분은 \(x^2\)입니다. \([x^2]_0^m = 0.5\) \(m^2 - 0^2 = 0.5\) \(m^2 = 0.5\)
 - m 구하기: \(m = \sqrt{0.5} \approx 0.707\) 따라서 중앙값은 약 0.707입니다.
 
이산 분포의 경우 (PMF 이용)
이산 변수의 경우, CDF가 계단 형태의 그래프이기 때문에 중앙값을 찾는 방법이 약간 다릅니다. 누적 확률이 정확히 0.5가 되는 지점이 없을 수도 있기 때문입니다.
이때의 규칙은 다음과 같습니다: 중앙값(\(m\))은 누적 확률 \(F(x)\)가 0.5보다 크거나 같아지는 최초의 \(x\)값입니다.
단계별 계산법:
- 결과값과 확률 나열하기: 가능한 모든 결과값(\(x_i\))과 그에 해당하는 확률 \(p(x_i)\)를 적습니다.
 - CDF 계산하기: 가장 작은 결과값부터 시작해서 확률을 차례대로 더해가며 각 지점의 누적 확률 \(F(x)\)를 계산합니다.
 - 중앙값 찾기: 계산된 CDF 값을 보세요. CDF 값이 
0.5를 넘거나 같아지는 첫 번째 \(x\)값이 바로 중앙값입니다. 
예시:
확률 변수 X가 다음과 같은 PMF를 갖는다고 해봅시다.
- \[p(1) = 0.3\]
 - \[p(2) = 0.1\]
 - \[p(3) = 0.4\]
 - \[p(4) = 0.2\]
 
- CDF를 단계별로 계산합니다:
- \[F(1) = P(X \le 1) = 0.3\]
 - \[F(2) = P(X \le 2) = 0.3 + 0.1 = 0.4\]
 - \(F(3) = P(X \le 3) = 0.4 + 0.4 = 0.8\) <– 여기서 멈춤!
 - \[F(4) = P(X \le 4) = 0.8 + 0.2 = 1.0\]
 
 - 중앙값 찾기: CDF 값이 \(x=2\)일 때 0.4였다가 \(x=3\)일 때 0.8로 0.5를 넘어섰습니다. 누적 확률이 0.5를 처음으로 넘은 지점은 \(x=3\)입니다. 따라서 중앙값은 3입니다.