5 분 소요

요약
최소 샘플 사이즈는 실험 결과의 오류율(1종 오류 α, 2종 오류 β)과 실험 목표 수준을 통제하기 위해 실험 시작 전에 설계되어야 한다.
하지만 실험 진행 중 지표의 분산이 초기 추정값과 크게 다를 경우, 이를 기반으로 샘플 크기를 재추정할 수 있다.

물론, 이 경우에도 통계적 검정은 반드시 재추정된 최소 샘플 사이즈가 충족된 시점에 단 1회만 수행되어야 하며
반복적 판단으로 인한 1종 오류 증가(p-hacking)를 방지해야 한다.
또한 실험 초반에는 신기 효과, 샘플 부족, 이상값 영향으로 인해 결과가 불안정할 수 있으므로
검정을 허용하기 위한 최소 실험 기간(보류 기간) 등의 가드레일도 사전에 정의해둘 필요가 있다.
이는 최소 샘플 사이즈 충족 여부와 함께 “평가 가능한 시점”에 대한 추가적인 신뢰성 기준이 될 수 있다.

1. 두 그룹의 분산이 같은 경우 - 최소 샘플 사이즈 계산 공식

최소 샘플 사이즈 계산 공식을 살펴보면, 왜 사전에 설계되어야 하는지를 이해할 수 있으므로 계산 공식부터 살펴보도록 하자.

참고로, A/B 테스트에서 효과 유무를 검정할 때 사용되는 통계적 검정은 지표 유형(평균, 비율)에 관계없이 표본 평균의 분포가 중심극한정리에 따라 정규분포로 근사된다는 가정 하에 수행된다. 따라서 최소 샘플 사이즈 계산 시에도 정규분포 기반의 Z값을 사용할 수 있어, 지표 유형에 상관없이 거의 동일한 구조로 계산이 가능하다. 단, 분산 추정 방식은 지표 유형에 따라 달라진다.

1.1. 평균 지표 최소 샘플 사이즈 계산 공식

대조군과 실험군의 샘플 사이즈가 동일하다는 전제로 최소 샘플 사이즈는 다음과 같이 계산된다:

\[n_1 = \frac{(Z_{1 - \alpha/2} + Z_{1 - \beta})^2 \cdot 2\sigma_{pooled}^2}{\delta^2} \tag{1}\]
  • $\alpha$: 1종 오류 확률 (유의 수준)
  • $\beta$: 2종 오류 확률
  • $Z_{1 - \alpha/2}$: 양측 검정 기준, 유의 수준 에 해당하는 Z값
    • 이는 귀무가설 하에서 1종 오류를 통제하기 위한 임계 값
    • (e.g. $\alpha = 0.05, Z_{1 - 0.025} ≈ 1.96$)
  • $Z_{1 - \beta}$: 검정력 $(1 - \beta)$에 해당하는 Z 값
    • 이는 대립가설 하에서 검정력을 확보하기 위한 기준 값
    • (e.g. $\beta = 0.2, Z_{1 - 0.2} = Z_{0.8} ≈ 0.84$)
  • $\sigma_{pooled}^2$: 두 그룹이 동일한 분산을 가진다고 가정할 때의 합동 분산 (pooled variance)
    • 합동 분산 추정량을 통해 다음과 같이 계산됨: $s_{pooled}^2 = \frac{(n_1 - 1)s_1^2 \;+\; (n_2 - 1)s_2^2}{n_1 + n_2 - 2}$
    • $2\sigma_{pooled}^2$ 에서 2는 두 그룹의 분산이 동일하고, 표본 수도 동일한경우 표본 평균 차이의 분산이 $\frac{2\sigma^2}{n}$가 되기 때문에 등장한다.
    • 즉, 2는 이러한 대칭 구조(등분산, 동일 샘플)에서 유도된 자연스러운 결과이며, 불필요한 조정 없이 공식에 포함된다.
  • $\delta$: 효과 크기, 즉 대조군과 실험군 간의 지표 값 차이
    • 실험 설계 시에는 보통 우리가 사전에 의미 있다고 판단하는 최소 수준의 효과를 기준으로 설정함.
    • 이 값은 Minimum Detectable Effect (MDE) 라고 불리며, 샘플 수를 결정하는 핵심 입력값.

1.2. 비율 지표 최소 샘플 사이즈 계산 공식

비율 지표에 또한 대조군과 실험군의 샘플 사이즈가 동일하다는 전제로 최소 샘플 사이즈는 다음과 같이 계산된다:

\[n_1 = \frac{(Z_{1 - \alpha/2} + Z_{1 - \beta})^2 \cdot 2p_{pooled}(1-p_{pooled})}{\delta^2} \tag{2}\]
  • $p_{pooled}$: 합동 비율 추정량으로 다음과 같이 계산됨: $\hat{p}_{pooled} = \frac{x_1+x_2}{n_1+n_2}$

  • 동일 샘플 사이즈($n_1=n_2$) 일때의 간소화 버전: $\bar{p}_{pooled} = \frac{p_1+p_2}{2}$ ($x_1=n_1p_1, x_2=n_2p_2$)

  • 나머지 구성 요소는 (1)번 식에서 정의된 내용과 동일

1.3. 간소화 버전의 샘플 사이즈 계산 공식

(3)번 식은 앞서 정의된 (1)번 식의 간소화 버전으로 실무에서는 다음과 같이 근사하여 자주 사용된다:

\[n_1 = \frac{16 \cdot \sigma^2}{\delta^2} \tag{3}\]
  • 여기서 16은 $(1.96 + 0.84)^2 \cdot 2 ≈ 15.68 $을 반올림한 값이다.
  • 나머지 $\sigma^2$와 $\delta$는 (1)번 식의 정의와 동일


참고로 위 식의 상수 16은 $\alpha=0.05, \beta=0.2$ 기준 하에서 유도된 값이며, 다른 오류 기준을 설정하면 해당 상수도 달라질 수 있다.

1.4. 사전에 최소 샘플 사이즈를 계산해야 되는 이유

자, 그럼 이제 앞서 확인한 식을 통해 생각해 보자 $\sigma^2$을 제외한 $\alpha, \beta, \delta$를 관측된 데이터를 바탕으로 임의로 조정하게 되면 어떤 문제가 생길 수 있을까? 정리해 보면 아래와 같이 두 가지 관점에서 문제를 정의해 볼 수 있다.

문제1. 실험 결과를 보고 기준($\alpha, \beta, \delta$)을 변경하면 통계적 타당성이 훼손될 수 있음

  • 예를 들어 실험 중에 $\delta$를 키워서 필요한 최소 샘플 사이즈를 줄이면, 샘플 수가 부족한 상태에서도 조기 종료가 가능해지고, 이로 인해 검정력이 낮아져 실제로 존재하는 효과를 놓칠 수 있다. (2종 오류 증가 가능성)
  • 반대로, $\delta$를 줄이면 필요한 샘플 수는 증가하겠지만, 이는 실험 결과를 본 뒤, 원하는 결론을 얻기 위해 기준을 조정하는 것으로 간주되어 p-hacking으로 해석될 수 있다.
  • $\alpha$와 $\beta$는 실험 결과를 어떤 확률 수준에서 신뢰할지 정하는 기준으로, 실험 전에 설계되어야 한다. 이를 실험 중 임의로 조정하면 해석의 일관성이 무너지고 p-hacking으로 이어질 수 있어 바람직하지 않다.

문제.2 실험 결과를 보고 MDE를 변경하는 것은 실험의 해석 기준 자체를 바꾸는 행위

  • MDE는 ‘이 정도의 차이는 있어야 비즈니스 적으로 실질적인 의미가 있다’는 의사결정 기준이다.
  • 실험 결과를 본 뒤, 효과가 작아 보이니까 기준도 낮추자는 것은 실험 설계의 목적과 기준을 사후에 바꾸는 것과 같다.

따라서 최소 샘플 사이즈는 사전에 정의된 $\alpha, \beta, \Delta$ 값을 기반으로 계산되어야 하며, 그래야만 실험 결과에 대한 유의성 판단이 통계적으로 정당성을 가질 수 있다.

2. 두 그룹의 분산이 다를 경우 - 최소 샘플 사이즈 계산 공식

앞서는 ‘대조군과 실험군의 분산이 동일하다’는 등분산 가정 하에 최소 샘플 사이즈를 계산했다. 그러나 실무에서는 두 그룹의 분산이 다른 경우가 존재한다. 이 경우 최소 샘플 사이즈 계산 시 분산을 어떻게 다루는지 살펴보자.

또한 A/B 테스트에서는 일반적으로 균등 배분(1:1)을 하지만, 상황에 따라 의도적으로 비균등 배분(예: 2:1)을 하는 경우도 있다. 이러한 경우의 계산 로직도 반영해 두었으니 참고하도록 하자.

2.1. 평균 지표 최소 샘플 사이즈 계산 공식

평균 지표에서의 최소 샘플 사이즈 계산 공식은 (1)번 식에서 분산에 대한 정의만 차이가 있다.

\[n_2 = \frac{(Z_{1 - \frac{\alpha}{2}} + Z_{1 - \beta})^2 \cdot (\frac{\sigma_1^2}{k} + \sigma_2^2)}{(\mu_1 - \mu_2)^2}, n_1=k \cdot n_2 \tag{4}\]
  • $\sigma_1^2$: 대조군의 분산
  • $\sigma_2^2$: 실험군의 분산
  • $\mu_1 - \mu_2$: 효과 크기, 즉 기대하는 평균 차이($\delta$)
  • $k$: 샘플 사이즈 비율 ($n_1/n_2$)

2.2. 비율 지표 최소 샘플 사이즈 계산 공식

비율 지표에서의 최소 샘플 사이즈 계산 공식 또한 (2)번 식 대비 분산에 대한 정의만 차이가 있다.

\[n_2 = \frac{(Z_{1 - \frac{\alpha}{2}} + Z_{1 - \beta})^2 \cdot \left[\frac{p_1(1 - p_1)}{k} + p_2(1 - p_2) \right]}{(p_1 - p_2)^2}, n_1=k \cdot n_2 \tag{5}\]
  • $p_1$: 대조군의 전환율 또는 성공 확률
  • $p_2$: 실험군의 전환율 또는 성공 확률
  • $p_1 - p_2$: 효과 크기, 즉 기대하는 전환율 차이($\delta$)
  • $k$: 샘플 사이즈 비율 ($n_1/n_2$)


Appendix A: Peeking vs. p-hacking

항목 Peeking p-hacking
정의 실험 도중 중간 결과(p-value 등)를 미리 들여다보는 행위 실험 결과가 유의하게 보이도록 분석 기준이나 조건을 조작하는 행위
목적 조기 종료 또는 실험 연장의 판단 원하는 결론을 얻기 위해 유의미해 보이도록 결과를 왜곡
의도성 없을 수도 있음 (무지에 의한 실수 가능) 있음. 유의미한 결과를 얻기 위한 의도적 조작
대표 사례 p-value가 작아졌을 때 실험을 조기 종료 변수 추가/삭제, 여러 지표 중 유의한 것만 보고, MDE/α 조정 등
문제점 1종 오류(α) 증가 1종 오류(α) 증가 및 재현성 저하, 전반적인 통계적 신뢰도 훼손

References

[1] Zhou, J., Lu, J., & Shallah, A. (2023). All about sample-size calculations for A/B testing: Novel extensions & practical guide. Proceedings of the 32nd ACM International Conference on Information and Knowledge Management (CIKM ‘23), 1-30.

[2] Chow, S. C., Shao, J., Wang, H., & Lokhnygina, Y. (2017). Sample Size Calculations in Clinical Research (3rd ed.). Chapman & Hall/CRC Biostatistics Series.

[3] Frost, J. (n.d.). What is P hacking: Methods & best practices. Statistics By Jim. https://statisticsbyjim.com/hypothesis-testing/p-hacking/

댓글남기기