Kiedy wykonuję regresję liniową w niektórych pakietach oprogramowania (na przykład Mathematica), otrzymuję wartości p związane z poszczególnymi parametrami w modelu. Na przykład wyniki regresji liniowej, która daje wynik będą miały wartość p powiązaną z a jedną z .a b
Co te wartości p oznaczają indywidualnie dla tych parametrów?
Czy istnieje ogólny sposób obliczania parametrów dla dowolnego modelu regresji?
Czy wartość p powiązaną z każdym parametrem można połączyć w wartość p dla całego modelu?
Aby utrzymać to pytanie w naturze matematycznej, szukam jedynie interpretacji wartości p pod względem prawdopodobieństw.
probability
regression
Henry B.
źródło
źródło
Odpowiedzi:
Wartość p dla jest wartością p w teście hipotezy „ ” (zwykle dwustronny test ). Wartość p dla jest wartością p w teście hipotezy „ ” (zwykle także dwustronny test ) i podobnie dla innych współczynników regresji. Modele prawdopodobieństwa dla tych testów są określone przez model przyjęty w modelu regresji liniowej. W przypadku regresji liniowej metodą najmniejszych kwadratów para ( ) jest zgodna z dwuwymiarowym rozkładem normalnym wyśrodkowanym na wartościach rzeczywistych parametrów ( ), a test hipotezy dla każdego współczynnika jest równoważny z testemα = 0 t b β = 0 t , b α , β t α = 0 β = 0 ba α=0 t b β=0 t a,b α,β t α=0 (odpowiednio. ) na podstawie próbek z odpowiedniego rozkładu normalnego [jednej zmiennej, tj. rozkładu samej lub ]. Szczegóły pojawiania się rozkładów normalnych są nieco skomplikowane i obejmują „stopnie swobody” i „macierze kapelusza” (na podstawie zapisu dla niektórych macierzy stale pojawiających się w teorii regresji OLS).β=0 a b A^
Tak. Zwykle odbywa się to (i definiowane) przez oszacowanie maksymalnego prawdopodobieństwa . W przypadku regresji liniowej OLS i niewielkiej liczby innych modeli istnieją dokładne wzory na oszacowanie parametrów na podstawie danych. W przypadku bardziej ogólnych regresji rozwiązania mają charakter iteracyjny i liczbowy.
Nie bezpośrednio. Wartość p oblicza się osobno dla testu całego modelu, to jest testu hipotezy, że wszystkie współczynniki (zmiennych, które przypuszczalnie się zmieniają, nie uwzględniają współczynnika „stałego składnika”, jeśli istnieje jeden). Ale tej wartości p zwykle nie można obliczyć na podstawie wiedzy o wartościach p współczynników.
źródło
Napisz swoje pierwsze pytanie: zależy to od wybranego oprogramowania. Istnieją naprawdę dwa typy wartości p, które są często używane w tych scenariuszach, oba zazwyczaj oparte na testach współczynnika wiarygodności (istnieją inne, ale zwykle są one równoważne lub przynajmniej różnią się nieznacznie wynikami).
Ważne jest, aby zdać sobie sprawę, że wszystkie te wartości p są uwarunkowane na (część) resztę parametrów. Oznacza to: Zakładając (niektóre), że inne szacunki parametrów są poprawne, sprawdzasz, czy współczynnik parametru wynosi zero. Zazwyczaj hipoteza zerowa dla tych testów jest taka, że współczynnik wynosi zero, więc jeśli masz małą wartość p, oznacza to (warunkowo na wartości innych współczynników), że sam współczynnik prawdopodobnie nie będzie wynosił zero.
Testy typu I testują warunkowo zerę każdego współczynnika na wartości współczynników, które występują przed nim w modelu (od lewej do prawej). Testy typu III (testy marginalne), test zerowości każdego współczynnika, zależny od wartości wszystkich innych współczynników.
Różne narzędzia prezentują różne wartości p jako domyślne, chociaż zazwyczaj istnieją sposoby uzyskania obu. Jeśli nie masz powodu spoza statystyki, aby zawrzeć parametry w jakiejś kolejności, ogólnie będziesz zainteresowany wynikami testu typu III.
Wreszcie (odnosząc się bardziej do ostatniego pytania), za pomocą testu współczynnika prawdopodobieństwa zawsze możesz utworzyć test dla dowolnego zestawu współczynników zależnych od pozostałych. Jest to odpowiedni sposób, jeśli chcesz przetestować wiele współczynników równych zero w tym samym czasie (w przeciwnym razie napotkasz kilka nieprzyjemnych problemów z testowaniem).
źródło