Jeśli chodzi o wartość p analizy wielokrotnej regresji liniowej, wprowadzenie ze strony internetowej Minitab pokazano poniżej.
Wartość p dla każdego terminu testuje hipotezę zerową, że współczynnik jest równy zero (brak efektu). Niska wartość p (<0,05) oznacza, że możesz odrzucić hipotezę zerową. Innymi słowy, predyktor o niskiej wartości p prawdopodobnie będzie znaczącym dodatkiem do twojego modelu, ponieważ zmiany wartości predyktora są związane ze zmianami zmiennej odpowiedzi.
Na przykład mam wynikowy model MLR jako . a wyjście jest pokazane poniżej. Następnie można obliczyć za pomocą tego równania.
Estimate SE tStat pValue
________ ______ _________ _________
(Intercept) 14.48 5.0127 2.8886 0.0097836
x1 0.46753 1.2824 0.36458 0.71967
x2 -0.2668 3.3352 -0.079995 0.93712
x3 1.6193 9.0581 0.17877 0.86011
x4 4.5424 2.8565 1.5902 0.1292
Na podstawie powyższego wstępu hipoteza zerowa jest taka, że współczynnik wynosi 0. Moje rozumienie jest takie, że współczynnik, na przykład współczynnik , zostanie ustawiony na 0, a kolejne y zostanie obliczone jako . Następnie sparowany test t-test przeprowadza się dla i , a wartość p o t-test jest 6.9e-12, który nie równej 0.1292 (p wartości współczynnika .
Czy ktoś może pomóc w poprawnym zrozumieniu? Wielkie dzięki!
źródło
Odpowiedzi:
Jest to nieprawidłowe z kilku powodów:
Model „bez” X4 niekoniecznie będzie miał takie same oszacowania współczynników dla innych wartości. Zamontuj zredukowany model i przekonaj się sam.
Test statystyczny przeprowadzany dla istotności statystycznej współczynnika jest testem t dla jednej próby. Jest to mylące, ponieważ nie mamy „próbki” wielu współczynników dla X4, ale mamy oszacowanie właściwości dystrybucyjnych takiej próbki przy użyciu centralnego twierdzenia granicznego. Średni i standardowy błąd opisują lokalizację i kształt takiego ograniczającego rozkładu. Jeśli weźmiesz kolumnę „Est” i podzielisz przez „SE” i porównasz ze standardowym rozkładem normalnym, otrzymasz wartości pw czwartej kolumnie.
Czwarty punkt: krytyka strony pomocy minitabu. Taki plik pomocy nie mógł, w jednym akapicie, podsumować lat szkolenia statystycznego, więc nie muszę się z tym pogodzić. Jednak stwierdzenie, że „predyktor” jest „ważnym wkładem”, jest niejasne i prawdopodobnie niepoprawne. Uzasadnienie wyboru zmiennych, które należy uwzględnić w modelu wielowymiarowym, jest subtelne i opiera się na naukowym uzasadnieniu, a nie wnioskowaniu statystycznym.
źródło
Twoja początkowa interpretacja wartości p wydaje się poprawna, co oznacza, że tylko punkt przecięcia ma współczynnik, który jest znacząco różny od 0. Zauważysz, że oszacowanie współczynnika dla x4 jest wciąż dość wysokie, ale jest wystarczający błąd, że nie jest to znaczący różny od 0.
Twój sparowany test t y1 i y2 sugeruje, że modele różnią się od siebie. Tego należy się spodziewać, w jednym modelu zawarłeś duży, ale nieprecyzyjny współczynnik, który w znacznym stopniu przyczynia się do twojego modelu. Nie ma powodu sądzić, że wartość p tych modeli różniąca się od siebie powinna być taka sama, jak wartość p współczynnika x4 różna od 0.
źródło