Znaczenie wartości p w regresji

27

Kiedy wykonuję regresję liniową w niektórych pakietach oprogramowania (na przykład Mathematica), otrzymuję wartości p związane z poszczególnymi parametrami w modelu. Na przykład wyniki regresji liniowej, która daje wynik będą miały wartość p powiązaną z a jedną z .a bax+bab

  1. Co te wartości p oznaczają indywidualnie dla tych parametrów?

  2. Czy istnieje ogólny sposób obliczania parametrów dla dowolnego modelu regresji?

  3. Czy wartość p powiązaną z każdym parametrem można połączyć w wartość p dla całego modelu?

Aby utrzymać to pytanie w naturze matematycznej, szukam jedynie interpretacji wartości p pod względem prawdopodobieństw.

Henry B.
źródło
Odpowiedź Gavina w pytaniu @ cardinal z linkiem do mówi dobrze.
JM nie jest statystykiem
6
@zyx, nie ma nic zaawansowanego w pytaniach PO. Są to bardzo częste pytania, na które, moim zdaniem, stats.SE jest bardziej odpowiednie --- i do których uczestnicy są również bardziej dostosowani. Math.SE i MO są doskonałymi zasobami na pytania prawdopodobieństwa, ale znacznie mniej na pytania statystyczne. Pytania OP dotyczą bardziej tych ostatnich.
kardynał
@cardinal: Śledzę stats.SE od początku publicznej wersji beta. Spośród ponad 4800 pytań do tej pory nie udało mi się znaleźć tego, które zadaje lub odpowiada na pytanie 3 z PO, co jest dziwne, jeśli jest to „bardzo częste” zapytanie. Nie widziałem też precyzyjnych koncepcyjnie odpowiedzi na punkt 1 przy kilku okazjach. Myślę, że te rzeczy powinny być okresowo publikowane na math.SE i MO, aby przyciągnąć uwagę szerszej publiczności, a nie migrować w ciągu kilku minut do stats.SE. To nie zaszkodzi też zapytać o stat.SE ale obracając drugi do jedynego miejsca, w którym statystyki można omawianym nie jest pomocne.
zyx
Teraz jest wątek na temat migracji matematyki.SE do statystyk stats.SE w meta.math.SE.
zyx
(Niektóre komentarze, o których mowa powyżej, zostały utracone podczas migracji. Są one widoczne przy oryginalnym wpisie matematyki.SE, linkowanym poniżej obok słów „migrowano z ...”)
zyx

Odpowiedzi:

13
  1. Wartość p dla jest wartością p w teście hipotezy „ ” (zwykle dwustronny test ). Wartość p dla jest wartością p w teście hipotezy „ ” (zwykle także dwustronny test ) i podobnie dla innych współczynników regresji. Modele prawdopodobieństwa dla tych testów są określone przez model przyjęty w modelu regresji liniowej. W przypadku regresji liniowej metodą najmniejszych kwadratów para ( ) jest zgodna z dwuwymiarowym rozkładem normalnym wyśrodkowanym na wartościach rzeczywistych parametrów ( ), a test hipotezy dla każdego współczynnika jest równoważny z testemα = 0 t b β = 0 t , b α , β t α = 0 β = 0 baα=0tbβ=0ta,bα,βtα=0 (odpowiednio. ) na podstawie próbek z odpowiedniego rozkładu normalnego [jednej zmiennej, tj. rozkładu samej lub ]. Szczegóły pojawiania się rozkładów normalnych są nieco skomplikowane i obejmują „stopnie swobody” i „macierze kapelusza” (na podstawie zapisu dla niektórych macierzy stale pojawiających się w teorii regresji OLS).β=0abA^

  2. Tak. Zwykle odbywa się to (i definiowane) przez oszacowanie maksymalnego prawdopodobieństwa . W przypadku regresji liniowej OLS i niewielkiej liczby innych modeli istnieją dokładne wzory na oszacowanie parametrów na podstawie danych. W przypadku bardziej ogólnych regresji rozwiązania mają charakter iteracyjny i liczbowy.

  3. Nie bezpośrednio. Wartość p oblicza się osobno dla testu całego modelu, to jest testu hipotezy, że wszystkie współczynniki (zmiennych, które przypuszczalnie się zmieniają, nie uwzględniają współczynnika „stałego składnika”, jeśli istnieje jeden). Ale tej wartości p zwykle nie można obliczyć na podstawie wiedzy o wartościach p współczynników.

zyx
źródło
2
W twoim punkcie (1) wydaje się, że istnieje trochę zamieszania między parametrem a estymatorem . Wartość jest powiązana raczej z estymatorem niż z parametrem, a estymatory są dwuwymiarowe normalne, a nie parametry (które przynajmniej w statystyce klasycznej są uważane za stałe). Również komentarze w punkcie (3) mogą prowadzić do zamieszania, ponieważ jest całkiem możliwe (i dość powszechne), że niektóre indywidualne wartości szacunków regresji są zarówno większe, jak i mniejsze niż łączna wartość z odpowiedniej test. p p FpppF
kardynał
@NRH: Przepraszamy, możesz wyjaśnić swój poprzedni komentarz. Nie do końca to śledzę (jeszcze). :)
kardynał
@ cardinal: wydaje się bardziej dokładne stwierdzenie, że wartość p jest powiązana z testem hipotez. Parametry pojawiają się w hipotezie zerowej testu, a para (obserwowana wartość estymatora, hipoteza alternatywna) określa następnie wartość p. Hipotezę zerową należy opisać za pomocą parametrów, takich jak α = 0, a nie estymatory a = 0, jak [niedbale] zrobiono w pierwotnej odpowiedzi, teraz edytowanej (dzięki za wskazanie błędu). Jednak rzekomo mylone lub brakujące rozróżnienie „estymatory są dwuwymiarowe normalne, a nie parametry” zostało wyraźnie określone w odpowiedzi.
zyx,
1
Przepraszam, po prostu nie mogłem się oprzeć. @zyx skomentował oryginalny post na math.SE, w którym odpowiedzi na stat.SE były często nieprecyzyjne. Uważam, że wiele odpowiedzi jest dość dokładnych, choć czasem matematycznych nieprecyzyjnych. To leży w naturze rzeczy. Pytania statystyczne i odpowiedzi nie zawsze można sprowadzić do precyzyjnych stwierdzeń matematycznych. W szczególności nie tych trudnych. Jednak podana tutaj odpowiedź nie jest ani szczególnie dokładna, ani precyzyjna.
NRH
3
Myślę, że byłoby miło, gdyby ktokolwiek głosował za komentarzem.
kardynał
1

Napisz swoje pierwsze pytanie: zależy to od wybranego oprogramowania. Istnieją naprawdę dwa typy wartości p, które są często używane w tych scenariuszach, oba zazwyczaj oparte na testach współczynnika wiarygodności (istnieją inne, ale zwykle są one równoważne lub przynajmniej różnią się nieznacznie wynikami).

Ważne jest, aby zdać sobie sprawę, że wszystkie te wartości p są uwarunkowane na (część) resztę parametrów. Oznacza to: Zakładając (niektóre), że inne szacunki parametrów są poprawne, sprawdzasz, czy współczynnik parametru wynosi zero. Zazwyczaj hipoteza zerowa dla tych testów jest taka, że ​​współczynnik wynosi zero, więc jeśli masz małą wartość p, oznacza to (warunkowo na wartości innych współczynników), że sam współczynnik prawdopodobnie nie będzie wynosił zero.

Testy typu I testują warunkowo zerę każdego współczynnika na wartości współczynników, które występują przed nim w modelu (od lewej do prawej). Testy typu III (testy marginalne), test zerowości każdego współczynnika, zależny od wartości wszystkich innych współczynników.

Różne narzędzia prezentują różne wartości p jako domyślne, chociaż zazwyczaj istnieją sposoby uzyskania obu. Jeśli nie masz powodu spoza statystyki, aby zawrzeć parametry w jakiejś kolejności, ogólnie będziesz zainteresowany wynikami testu typu III.

Wreszcie (odnosząc się bardziej do ostatniego pytania), za pomocą testu współczynnika prawdopodobieństwa zawsze możesz utworzyć test dla dowolnego zestawu współczynników zależnych od pozostałych. Jest to odpowiedni sposób, jeśli chcesz przetestować wiele współczynników równych zero w tym samym czasie (w przeciwnym razie napotkasz kilka nieprzyjemnych problemów z testowaniem).

Nick Sabbe
źródło
Czy mógłbyś wyjaśnić warunki, o których wspomniałeś? W regresji jednoczynnikowej z predyktorami i przecięciem, testowanie hipotezy o liniowej kombinacji parametrów używa statystyki testowej ...ψ = c ' β t = ψ - ψ 0pψ=cβt=ψ^ψ0σ^c(XX)1c
caracal
Tutaj , gdzie jest wektorem oszacowań parametrów, a wektorem współczynników. jest macierzą projektową, a jest resztkowym błędem standardowym , gdzie jest wektorem reszt z dostarczonego modelu. Dla testu pojedynczego parametru wynoszącego 0, jest -tym wektorem jednostkowym, a . Nie wiem, gdzie porównania modeli odgrywają rzut na . ψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcjψ0=0t
caracal
Istota sprawy została uchwycona na przykład tutaj . Pamiętaj, że anova jest szczególnym przypadkiem regresji. Zasadniczo sprowadza się to do tego: jeśli wykonasz test dla zerowej wartości (współczynnika) zmiennej A w modelu ze zmienną B lub bez niej, możesz uzyskać różne wyniki. Zatem wynik zależy od modelu, danych (nawet dla wartości zmiennej B), a zatem od współczynników nie w teście, ale w modelu. Znalezienie tego pomysłu w matematyce może być nieco trudniejsze :-)
Nick Sabbe
To prawda, ale hipotezy anova sprawdzają, czy wszystkie parametry efektu odpowiadające grupom czynnika wynoszą jednocześnie 0. Hipoteza ta różni się od tej o (tutaj pojedynczy parametr ), a także wykorzystuje inna statystyka testu: gdzie i są resztkową sumą kwadratów i ich df dla modelu ograniczonego, podobnie dla modelu nieograniczonego. Oczywiście zależy to od wyboru modeli ograniczonych i nieograniczonych. p c β β j F = ( S S e r - S S e u ) / ( d f e r - d f e u )p1pcββj SSerdfer| | er| | 2uF=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2u
caracal
Przypadek ciągły powinien być całkowicie równoważny dychotomicznej zmiennej zakodowanej 0-1.
Nick Sabbe