Minimalna liczba punktów dla regresji liniowej

16

Jaka byłaby „rozsądna” minimalna liczba obserwacji w celu znalezienia trendu w czasie z regresją liniową? co z dopasowaniem modelu kwadratowego?

Pracuję ze złożonymi wskaźnikami nierówności w zdrowiu (SII, RII) i mam tylko 4 fale ankiety, czyli 4 punkty (1997,2001,2004,2008).

Nie jestem statystykiem, ale mam intuicyjne wrażenie, że 4 punkty nie są wystarczające. Czy masz odpowiedź i / lub referencje?

Wielkie dzięki,

Françoise

Francoise
źródło
4
Ogólna zasada wynosi 10 punktów za każdą zmienną niezależną.
Peter Flom - Przywróć Monikę
1
Jak mierzone są twoje wskaźniki? Jeśli zawierają szacunki zmienności, wówczas dwa mogą wystarczyć (przy użyciu testu t lub jego analogu). Podstawową zasadą statystyczną, która ma tutaj zastosowanie, jest to, że gdy zmienność losowa jest mało prawdopodobnym wyjaśnieniem tego, co obserwujesz, masz prawo przypisać każdą widoczną tendencję przyczynom nieprzypadkowym. Gdy trend jest silny, do wyciągnięcia takiego wniosku może być bardzo niewiele danych, niezależnie od ogólnych „praktycznych zasad”.
whuber

Odpowiedzi:

12

Praktyczna reguła Petersa wynosząca 10 na zmienną towarzyszącą jest rozsądną zasadą. Prostą linię można idealnie dopasować do dowolnych dwóch punktów, niezależnie od wielkości szumu w wartościach odpowiedzi, a kwadrat można idealnie dopasować za pomocą zaledwie 3 punktów. Tak wyraźnie w prawie każdych okolicznościach należałoby powiedzieć, że 4 punkty są niewystarczające. Jednak, jak większość praktycznych zasad, nie obejmuje każdej sytuacji. Przypadki, w których składnik szumu w modelu ma dużą wariancję, będą wymagały więcej próbek niż podobny przypadek, w którym wariancja błędu jest niewielka.

Wymagana liczba punktów próbkowania zależy od obiektów. Jeśli przeprowadzasz analizę eksploracyjną, aby sprawdzić, czy jeden model (powiedzmy liniowy w zmiennej towarzyszącej) wygląda lepiej niż inny (powiedzmy funkcja kwadratowa zmiennej towarzyszącej), mniej niż 10 punktów może wystarczyć. Ale jeśli chcesz bardzo dokładnych szacunków współczynników korelacji i regresji dla zmiennych towarzyszących, możesz potrzebować więcej niż 10 na zmienną towarzyszącą. Dokładność kryterium prognozy może wymagać nawet większej liczby próbek niż dokładnych oszacowań parametrów. Należy zauważyć, że wariancja oszacowań i prognoz obejmuje wariancję terminu błędu modelu.

Michael R. Chernick
źródło
Dobre punkty, Michael; Starałem się to uprościć. :-). Biorąc pod uwagę pierwotne pytanie, byłbym bardzo zaskoczony, gdyby mniej niż 10 punktów było wystarczających. Miary nierówności w zdrowiu wydają się być obarczone dużym błędem, a relacje z czasem raczej nie są wysoce liniowe. Czy znasz jakieś artykuły na ten temat? To ciekawy temat, który często się pojawia.
Peter Flom - Przywróć Monikę
@PeterFlom I dont. Spojrzałbym na książkę van Belle'a o statystycznych regułach praktycznych, aby sprawdzić, czy stosuje on regułę taką jak ta, o której wspomniałeś. Zaletą jego książki jest to, że wyjaśnia uzasadnienie każdej reguły. Zgadzam się z tobą, że reguła mówiąca o przyjmowaniu co najmniej 10 na zmienną towarzyszącą jest całkiem dobra i używanie mniej byłoby rzadko bezpieczne, z wyjątkiem niektórych przypadków eksploracyjnych. W naukach o zdrowiu, w których pracuję, pojęcie hałasu wydaje się być zawsze duże, ale być może niektóre ściśle kontrolowane eksperymenty fizyki lub inżynierii mogłyby mieć bardzo dokładne pomiary, a zatem mały błąd losowy.
Michael R. Chernick,
Próbowałem tylko wskazać na możliwość wystąpienia małego szumu, który może wymagać mniej niż 10 punktów, nawet jeśli taka możliwość jest niewielka.
Michael R. Chernick,
R2)
+1, dobre informacje, ale warto również wspomnieć, że jeśli twój estymator jest bezstronny, możesz mieć nasycony model i nadal mieć oszacowanie parametrów, jeśli to wszystko, czego potrzebujesz. Nie będziesz miał oszacowania zmienności ani nie będziesz mógł wnioskować. Jednak w niektórych przypadkach, gdy istnieje wiele efektów do oszacowania, a dane są wystarczająco trudne do uzyskania, czasami stosuje się modele nasycone. Na przykład w tym przypadku można uzyskać oszacowanie funkcji w / kwadratowej w / 3 punktów. Niekoniecznie mam na myśli, że to dobra rzecz, ale to jest prawdziwa dolna granica i powód.
gung - Przywróć Monikę