Dlaczego niektórzy ludzie testują założenia modelu przypominającego regresję na swoich surowych danych, a inni testują je na poziomie resztkowym?

12

Jestem doktorantem z psychologii eksperymentalnej i staram się doskonalić swoje umiejętności i wiedzę na temat analizy moich danych.

Do piątego roku studiów w psychologii myślałem, że modele podobne do regresji (np. ANOVA) zakładają następujące rzeczy:

  • normalność danych
  • jednorodność wariancji danych i tak dalej

Moje studia licencjackie doprowadziły mnie do przekonania, że ​​założenia dotyczyły danych. Jednak w moim piątym roku niektórzy z moich instruktorów podkreślili fakt, że założenia dotyczą błędu (szacowanego przez resztki), a nie surowych danych.

Ostatnio rozmawiałem o pytaniu o założenia z niektórymi z moich kolegów, którzy również przyznali, że odkryli znaczenie sprawdzania założeń dotyczących rezydualnych dopiero w ostatnich latach studiów.

Jeśli dobrze rozumiem, modele podobne do regresji przyjmują założenia dotyczące błędu. Dlatego sensowne jest sprawdzenie założeń dotyczących reszt. Jeśli tak, to dlaczego niektórzy sprawdzają założenia dotyczące surowych danych? Czy to dlatego, że taka procedura sprawdzająca jest zbliżona do tego, co uzyskalibyśmy poprzez sprawdzenie pozostałości?

Byłbym bardzo zainteresowany dyskusją na ten temat z niektórymi ludźmi, którzy mają dokładniejszą wiedzę niż moi koledzy i ja. Z góry dziękuję za odpowiedzi.

Psychokwak
źródło

Odpowiedzi:

13

Zasadniczo jesteś na dobrej drodze. Dyskusję na temat aspektu normalności znajdziesz w Normalność zmiennej zależnej = normalność reszt?

Niektóre założenia klasycznego modelu liniowego rzeczywiście dotyczą błędów (wykorzystanie reszt jako ich realizacji):

  • Czy są nieskorelowane? (Istotne dla wnioskowania i optymalności estymatorów OLS)
  • Czy mają jednakową wariancję? (Istotne dla wnioskowania i optymalności estymatorów OLS)
  • Czy są wyśrodkowane wokół 0? (Kluczowe założenie dla uzyskania obiektywnych estymatorów i prognoz)
  • Jeśli próbka jest bardzo mała: czy są one normalne lub co najmniej symetrycznie rozmieszczone? (Istotne dla wnioskowania)

Inne warunki dotyczą „surowych danych”:

  • Czy regresory nie zawierają dużych wartości odstających? (Obserwacje o dużej dźwigni mogą zniszczyć cały model)
  • Brak doskonałej wielokoliniowości? (Spowodowałoby to problemy obliczeniowe, przynajmniej w niektórych pakietach oprogramowania)

Teraz twój nauczyciel licencjacki może mieć również rację:

  • Być może skupiałeś się na testach jednowymiarowych, takich jak test t dla jednej próby. Tam założenia dotyczą surowych danych.
  • R2)
  • Jak sprawdziłbyś homoscedastyczność itp. Na podstawie surowych danych? Może źle go zrozumiałeś.
Michael M.
źródło
Ok, dziękuję bardzo za odpowiedź i link, który jest bardzo przydatny. Niektórzy moi koledzy i ja do niedawna wierzyliśmy, że surowe dane powinny mieć równe wariancje. Jak powiedziałeś, być może coś przeoczyliśmy na naszych kursach. W jednej książce możemy przeczytać, co następuje:
Psychokwak,
„W najbardziej powszechnych procedurach statystycznych przyjmuje się dwa założenia, które są istotne dla tego tematu: (a) założenie, że zmienne (lub ich terminy błędów, bardziej technicznie) są normalnie rozłożone, oraz (b) założenie równości wariancji (homoscedastyczność lub jednorodność wariancji), co oznacza, że ​​wariancja zmiennej pozostaje stała w obserwowanym zakresie niektórych innych zmiennych. ” Czy to oznacza, że ​​kiedy mówi się o „zmiennej”, to on lub ona systematycznie mówi o „swoich błędach”? Jeśli tak, zgadzam się z tym, ale bez wyraźnej wzmianki, nie jest to oczywiste (przynajmniej dla mnie).
Psychokwak,
Wreszcie mam ostatnie pytanie dotyczące twoich odpowiedzi. Jeżeli test t i ANOVA są szczególnymi przypadkami regresji, dlaczego założenia dotyczą danych w teście t z jedną próbą? Jeszcze raz dziękuję za przydatną odpowiedź.
Psychokwak
1
Aby odpowiedzieć na twój ostatni komentarz: Test t dla jednej próby można również postrzegać jako szczególny przypadek regresji. Model składa się po prostu z przecięcia (= średnia) i składnika błędu, tzn. Odpowiedź jest przesuniętym błędem. Ponieważ przesunięcia są nieistotne dla żadnego założenia, równoznaczne jest mówienie o danych lub resztkach.
Michael M
4

Rozróżnienie między danymi resztowymi a danymi surowymi uważam za nieprzydatne, ponieważ oba odnoszą się bardziej do faktycznej próby, a nie do podstawowego rozkładu populacji. Lepiej jest myśleć o tym, że jednym z wymagań jest „wymagania w grupie”, a inne „między założeniami grupy”.

Na przykład jednorodność wariancji jest „założeniem międzygrupowym”, ponieważ mówi, że wariancja wewnątrz grupy jest taka sama dla wszystkich grup.

Normalność jest założeniem „wewnątrz grupy”, które wymaga, aby w każdej grupie y rozkład był normalny.

Zauważ, że normalność w stosunku do całego surowca zwykle oznacza, że ​​nie masz żadnego efektu - spójrz na rozkład płci bez rozróżnienia między kobietami i mężczyznami. Nie będzie normalnie dystrybuowany z powodu silnego efektu płci. Ale w przypadku każdej płci ma się całkiem dobrze.

Erik
źródło
1
Dziękuję również za odpowiedź. To ciekawy sposób, aby zobaczyć pytanie. Nigdy nie myślałem o normalności w taki sposób (tj. „Że normalność w stosunku do całego surowca zwykle oznacza, że ​​nie mamy żadnego efektu”).
Psychokwak