Co robisz, jeśli twoje stopnie swobody przekraczają koniec twoich stołów?

11

Stopnie swobody w mojej tabeli F nie są wystarczająco wysokie dla mojej dużej próbki.

Na przykład, jeśli mam F z 5 i 6744 stopniami swobody, jak znaleźć 5% wartość krytyczną dla ANOVA?

Co jeśli robiłbym test chi-kwadrat z dużymi stopniami swobody?

[Takie pytanie zostało zadane jakiś czas temu, ale OP popełnił błąd i faktycznie miał mniejszy plik df, zmniejszając go do duplikatu - ale oryginalne duże pytanie df powinno znaleźć odpowiedź gdzieś na stronie]

Glen_b - Przywróć Monikę
źródło
1
Masz większy stół?
Federico Poloni

Odpowiedzi:

16

Tabele F :

  1. Najłatwiejszym ze wszystkich - jeśli możesz - jest użycie pakietu statystyk lub innego programu, który zapewni ci wartość krytyczną. Na przykład w R możemy to zrobić:

     qf(.95,5,6744)
    [1] 2.215425
    

    (ale równie łatwo można obliczyć dokładną wartość p dla swojego F).

  2. Zwykle tabele F mają stopnie swobody „nieskończoności” na końcu tabeli, ale kilka nie. Jeśli masz naprawdę duży plik df (na przykład 6744 jest naprawdę duży), możesz zamiast niego użyć wpisu infinity ( ).

    Więc możesz mieć tabele dla które dają 120 df i df:ν1=5

          ...    5      ...
     ⁞
    120        2.2899   
     ∞         2.2141
    

    df rzędu nie będzie działać na dowolnym naprawdę duże (mianownik df). Jeśli użyjemy tego, mamy 2.2141 zamiast dokładnego 2.2154, ale nie jest tak źle.ν2

  3. Jeśli nie masz wpisanego stopnia swobody nieskończoności, możesz wypracować jeden z tabeli chi-kwadrat, używając wartości krytycznej dla licznika df podzielonego przez te df

    Na przykład dla wartości krytycznej weź wartość krytyczną i podziel przez . 5% wartości krytycznej dla wynosi . Jeśli podzielimy przez , będzie to co jest wierszem z powyższej tabeli.F5,χ525χ5211.070552.2141

  4. Jeśli twoje stopnie swobody mogą być nieco za małe, aby użyć wpisu „nieskończoność” (ale nadal są znacznie większe niż 120 lub cokolwiek, do czego zmierza twoja tabela), możesz użyć odwrotnej interpolacji między najwyższym skończonym df a wpisem nieskończoności. Powiedzmy, że chcemy obliczyć wartość krytyczną dla dfF5,674

       F       df     120/df    
     ------   ----    -------
     2.2899    120      1     
       C       674    0.17804
     2.2141     ∞       0    
    

    Następnie obliczamy nieznaną wartość krytyczną, asC

    C2.2141+(2.28992.2141)×(0.178040)/(10)2.2276

    (Dokładna wartość to , więc działa całkiem dobrze.)2.2274

    Więcej szczegółów na temat interpolacji i interpolacji odwrotnej podano w tym powiązanym poście.


Stoły chi-kwadrat :

Jeśli twój chi-kwadrat df jest naprawdę duży, możesz użyć normalnych tabel, aby uzyskać przybliżenie.

Dla dużego df rozkład chi-kwadrat jest w przybliżeniu normalny ze średnią i wariancją . Aby uzyskać górną wartość 5%, weź jednostronną wartość krytyczną 5% dla standardowej wartości normalnej ( ) i pomnóż ją przez i dodaj .νν2ν1.6452νν

Wyobraźmy sobie na przykład, że potrzebujemy górnej 5% wartości krytycznej dla .χ67442

Chcemy obliczyć . Dokładna odpowiedź (do cyfr znaczących) to .1.645×2×6744+6744693556936.2

Jeśli stopnie swobody są mniejsze, możemy użyć faktu, że jeśli to to .Xχν22X˙N(2ν1,1)

Na przykład, gdybyśmy mieli df, moglibyśmy zastosować to przybliżenie. Dokładna górna 5% wartość krytyczna dla chi-kwadrat z 674 df wynosi (do 5 cyfr) . Przy takim przybliżeniu obliczymy w następujący sposób:674735.51

Weź górną (jednostronną) 5% wartość krytyczną dla standardowej wartości normalnej (1.645), dodaj , potęguj kwadrat i podziel przez 2. W tym przypadku:2ν1

(1.645+2×6741)2/2735.2 .

Jak widzimy, jest to dość bliskie.

W przypadku znacznie mniejszych stopni swobody można zastosować transformację Wilsona-Hilferty'ego - działa ona aż do kilku stopni swobody - ale tabele powinny to obejmować. To przybliżenie jest takie, że .(Xν)13˙N(129ν,29ν)

Glen_b - Przywróć Monikę
źródło
2
+1 Pomysł można ulepszyć. Wykorzystaj fakt, że ogranicza się do racjonalnej funkcji gdy drugi parametr rośnie. Na przykład obliczysz to jako . Otrzymasz , z dokładnością do trzech znaczących cyfr. Zauważ, że parametr jest małą liczbą całkowitą, co oznacza, że ​​prawdopodobnie będzie on w tabeli i będzie dostępny bez interpolacji. χ2Fχ2Rdf2/df1 * (-1 + 1/(1-qchisq(0.95, df1) / df2))2.2177χ2
whuber
Zakładam, że coś tu przeoczyłem - kilkakrotnie próbowałem ustalić, co masz na myśli w tym ulepszeniu w porównaniu z tym, co zrobiłem w punkcie 3 (co już traktuje to jako prostą funkcję chi-kwadrat z małą liczbą całkowitą df, jak sugerowałoby to twierdzenie Słuckiego jako df2 ). W omawianym przykładzie moje przybliżenie jest zarówno łatwiejsze do przeprowadzenia, jak i dokładniejsze (np. Ma około 57% błędu bezwzględnego). Czy ta sugestia jest lepsza przy innych wartościach dwóch df, czy może lepiej, ponieważ jest bardziej konserwatywna niż antykonserwatywna, ...
Glen_b -Reinstate Monica 10.04.19
... lub czy intencją jest, aby błędy obu podejść były przeciwne w kierunku (sugerując być może połączenie obu?).
Glen_b
Pamiętam, że miałem na myśli punkt 4.
Whuber
Ach, to może mieć więcej sensu. Przepraszam, że jestem gęsty. Spróbuję to jeszcze raz.
Glen_b