Mam pewne dane, które pasują do z grubsza liniowej linii:
Kiedy wykonuję regresję liniową tych wartości, otrzymuję równanie liniowe:
W idealnym świecie równanie powinno wynosić .
Oczywiście moje wartości liniowe są zbliżone do tego ideału, ale nie do końca. Moje pytanie brzmi: jak mogę ustalić, czy ten wynik jest statystycznie istotny?
Czy wartość 0,997 znacznie różni się od 1? Czy -0,01 znacznie różni się od 0? Czy też są statystycznie takie same i mogę stwierdzić, że przy pewnym rozsądnym poziomie ufności?
Jakiego testu statystycznego mogę użyć?
Dzięki
Odpowiedzi:
Ten typ sytuacji można rozwiązać za pomocą standardowego testu F dla modeli zagnieżdżonych . Ponieważ chcesz przetestować oba parametry na modelu zerowym ze stałymi parametrami, twoje hipotezy są następujące:
Test F obejmuje dopasowanie obu modeli i porównanie ich rezydualnej sumy kwadratów, które są:
Statystyka testu to:
Odpowiednia wartość p wynosi:
Implementacja w R: Załóżmy, że twoje dane są w ramce danych wywoływanej
DATA
zmiennymi o nazwiey
ix
. Test F można wykonać ręcznie za pomocą następującego kodu. W symulowanych próbnych danych, które wykorzystałem, możesz zobaczyć, że szacowane współczynniki są zbliżone do tych w hipotezie zerowej, a wartość p testu nie wykazuje istotnych dowodów na fałszowanie hipotezy zerowej, że prawdziwą funkcją regresji jest funkcja tożsamości.Dane
summary
wyjściowe iplot
dla tych danych wyglądają następująco:źródło
sd = 2/sqrt(1+abs(x))
Oto fajna metoda graficzna, którą przytoczyłem z doskonałej książki Juliana Faraway'a „Modele liniowe z R (wydanie drugie)”. To równoczesne 95% przedziały ufności dla punktu przecięcia i nachylenia, wykreślone jako elipsa.
Dla ilustracji stworzyłem 500 obserwacji ze zmienną „x” o rozkładzie N (średnia = 10, sd = 5), a następnie zmienną „y”, której rozkład wynosi N (średnia = x, sd = 2). Daje to korelację nieco powyżej 0,9, która może nie być tak ścisła jak twoje dane.
Możesz sprawdzić elipsę, aby zobaczyć, czy punkt (punkt przecięcia = 0, nachylenie = 1) mieści się w tym lub przed tym przedziałem ufności.
Utworzono 21.01.2019 przez pakiet reprezentx (v0.2.1)
źródło
Można obliczyć współczynniki za pomocą n próbek próbnych. Spowoduje to prawdopodobnie uzyskanie normalnych wartości współczynników rozkładu (centralne twierdzenie graniczne). Dzięki temu możesz następnie skonstruować (np. 95%) przedział ufności z wartościami t (n-1 stopni swobody) wokół średniej. Jeśli twój CI nie zawiera 1 (0), jest statystycznie istotny różny, a dokładniej: Możesz odrzucić hipotezę zerową o równym nachyleniu.
źródło
źródło
Powinieneś dopasować regresję liniową i sprawdzić 95% przedziały ufności dla dwóch parametrów. Jeżeli CI nachylenia obejmuje 1, a CI przesunięcia obejmuje 0, to dwustronny test jest nieznaczny w przybliżeniu. na poziomie (95%) ^ 2 - ponieważ stosujemy dwa osobne testy, ryzyko typ-I wzrasta.
Za pomocą R:
lub używasz
i samodzielnie oblicz 2 przedziały sigma.
źródło