Klasyczny test F dla podzbiorów zmiennych w regresji wieloliniowej ma postać gdzieSSE(R)to suma błędów kwadratu w modelu „zredukowanym”, który zagnieżdżony jest w „dużym” modeluB, adfto stopnie swobody obu modeli. Zgodnie z hipotezą zerową, że dodatkowe zmienne w „dużym” modelu nie mają liniowej mocy wyjaśniającej, statystyka jest podzielona jako F ostopniach swobodydfR-dfBidfB.
Jaka jest jednak dystrybucja w ramach alternatywy? Zakładam, że jest to niecentralne F (mam nadzieję, że nie podwójnie niecentralne), ale nie mogę znaleźć żadnego odniesienia do tego, czym dokładnie jest parametr niecentralności. Zgaduję, że zależy to od prawdziwych współczynników regresji i prawdopodobnie od macierzy projektowej X , ale poza tym nie jestem tego taki pewien.
Oto kod R (wybacz styl, wciąż się uczę):
źródło