중회귀모형의 분산분석표(ANOVA table)
목차
ANOVA table in R
lm<-lm(Y ~ X1+X2+X3+X4+X5+X6, data=data_name)
summary(lm)
anova(update(lm,~1),lm)
update(lm,~1)는 lm 모형에 상수항만을 가지는 모형을 추가하여 새로운 선형회귀모형을 생성하는 함수이다.
#출력결과
Model 1: Y ~ 1
Model 2: Y ~ X1 + X2 + X3 + X4 + X5 + X6
Res.Df RSS Df Sum of Sq F Pr(>F)
1 29 4297
2 23 1149 6 3148 10.502 1.24e-05 ***
ANOVA table의 구성요소
총제곱합(Total Sum of Squares, SST)
각 관측값에서 종속변수의 평균값(y_bar)을 뺀 차이의 제곱을 모두 더한 값으로 계산됩니다.
SST = Σ(yi - y_bar)^2
모형제곱합(Model Sum of Squares, SSM)
중회귀모형이 설명할 수 있는 변동을 계산합니다. 즉, 각각의 설명변수가 종속변수와 연관이 있는지를 판단하는데 사용됩니다.
SSM = Σ(중회귀모형으로 예측된 y값 - y_bar)^2
잔차제곱합(Residual Sum of Squares, SSE)
모형제곱합을 제외한 나머지 변동을 계산합니다. 즉, 중회귀모형이 설명하지 못하는 부분에 대한 변동을 계산하는 것입니다.
SSE = Σ(yi - y^i)^2
자유도(Degrees of Freedom)
자유도는 각각 SST, SSM, SSE에 대한 값을 계산하기 위해 사용됩니다. 자유도는 데이터 샘플의 개수에서 추정된 파라미터의 수를 뺀 값입니다.
SST의 자유도: n-1
SSM의 자유도: k (중회귀모형에서의 설명변수의 수)
SSE의 자유도: n-k-1
평균제곱값(Mean Square, MS)
모형제곱합과 잔차제곱합을 자유도로 나눈 값입니다.
MSM = SSM/k, MSE = SSE/(n-k-1)
F-통계량
모형제곱합이 잔차제곱합에 비해 큰 경우, 중회귀모형이 종속변수의 변동을 설명하는 정도가 크다고 볼 수 있습니다. 이를 확인하기 위해 F-통계량을 계산합니다.
F = MSM/MSE
p-값
F-통계량과 자유도를 이용하여 p-값을 계산합니다. 이 p-값이 유의수준보다 작으면, 중회귀모형에서 최소한 하나의 설명변수가 종속변수와 연관이 있다는 것을 의미합니다.
결론
따라서, 중회귀모형의 분산분석표를 보면 SST, SSM, SSE, 자유도, MS, F-값, p-값 등이 포함되어 있습니다. 이 분산분석표를 통해 중회귀모형의 적합도를 평가할 수 있습니다. 만약 F-통계량이 크고, p-값이 작으면, 중회귀모형이 통계적으로 유의미하게 종속변수를 설명한다고 볼 수 있습니다. 이 경우, 중회귀모형은 데이터를 잘 설명하는 좋은 모형이라고 할 수 있습니다.
또한, 중회귀모형에서 각 설명변수의 영향력을 비교할 수 있습니다. 이를 위해서는 중회귀모형의 분산분석표에서 설명변수의 MS 값을 비교해야 합니다. MS 값이 큰 설명변수일수록 종속변수를 설명하는 데 더 중요한 역할을 한다고 볼 수 있습니다.
마지막으로, 중회귀모형에서 설명변수의 개수가 많아질수록 모형의 복잡도가 증가하게 됩니다. 이 때는 모형이 과적합(overfitting)될 가능성이 있으므로, 중요한 설명변수만 선택하거나 변수 선택 기법을 사용하여 모형을 간소화하는 것이 좋습니다.
'Statistics > Regression Analysis' 카테고리의 다른 글
| 왜도 (Skewness) (0) | 2023.06.09 |
|---|---|
| 벡터-행렬을 이용한 최소제곱추정량의 유도 (0) | 2023.04.20 |
| 단순선형회귀분석의 최소제곱법을 이용한 최소제곱추정량 유도 (0) | 2023.04.19 |