Uczęszczam na klasę analizy danych i niektóre z moich głęboko zakorzenionych pomysłów są wstrząśnięte. Mianowicie idea, że błąd (epsilon), a także jakakolwiek inna wariancja, odnosi się tylko (tak myślałem) do grupy (próbki lub całej populacji). Teraz uczymy się, że jednym z założeń regresji jest to, że wariancja jest „taka sama dla wszystkich osób”. To mnie w jakiś sposób szokuje. Zawsze myślałem, że to wariancja Y we wszystkich wartościach X była założona jako stała.
Rozmawiałem z profesorem, który powiedział mi, że kiedy przeprowadzamy regresję, zakładamy, że nasz model jest prawdziwy. I myślę, że to trudna część. Dla mnie termin błędu (epsilon) zawsze oznaczał coś w rodzaju „dowolnych elementów, których nie znamy i które mogą wpłynąć na naszą zmienną wyniku plus błąd pomiaru”. W sposobie nauczania klasy nie ma czegoś takiego jak „inne rzeczy”; zakłada się, że nasz model jest prawdziwy i kompletny. Oznacza to, że wszelkie zmiany rezydualne należy traktować jako iloczyn błędu pomiaru (dlatego należy oczekiwać, że pomiar pojedynczego 20 razy spowoduje taką samą wariancję, jak jednorazowy pomiar 20 osobników).
Czuję, że coś jest gdzieś nie tak, chciałbym zasięgnąć opinii eksperta na ten temat ... Czy jest miejsce na interpretację tego, co oznacza błąd, pod względem koncepcyjnym?
źródło
Odpowiedzi:
Jeśli istnieją aspekty jednostek, które mają wpływ na wynikowe wartości y, to albo istnieje jakiś sposób na uzyskanie tych aspektów (w takim przypadku powinny one być częścią predyktora x), albo nie ma możliwości, aby kiedykolwiek do nich dojść Informacja.
Jeśli nie ma sposobu na uzyskanie tych informacji i nie ma możliwości wielokrotnego pomiaru wartości y dla osób, to naprawdę nie ma to znaczenia. Jeśli możesz mierzyć y wielokrotnie, a twój zestaw danych rzeczywiście zawiera powtarzane pomiary dla niektórych osób, masz potencjalny problem na rękach, ponieważ teoria statystyczna zakłada niezależność błędów pomiarowych / reszt.
Załóżmy na przykład, że próbujesz dopasować model formularza
i że dla każdej osoby
gdzie z zależy od osobnika i jest zwykle rozkładane ze średnią 0 i odchyleniem standardowym 10. Dla każdego powtarzanego pomiaru osobnika,
gdzie jest zwykle rozkładane ze średnią 0 i odchyleniem standardowym 0,1.mi
Możesz spróbować to wymodelować jako
gdzie jest zwykle rozkładany ze średnią 0 i odchyleniem standardowymϵ
Dopóki masz tylko jeden pomiar dla każdej osoby, byłoby dobrze. Jeśli jednak masz wiele pomiarów dla tej samej osoby, wówczas twoje resztki nie będą już niezależne!
Na przykład, jeśli masz jedną osobę ze z = 15 (1,5 odchylenia standardowego, więc nie jest to nieuzasadnione), i sto powtarzanych pomiarów tej osoby, to używając i (dokładne wartości!) skończyłoby się to 100 resztkami o około 1,5 odchylenia standardowego, co wyglądałoby niezwykle nieprawdopodobnie. Wpłynęłoby to na statystyki . β 1 = 10 χ 2β0= 100 β1= 10 χ2)
źródło
Myślę, że „błąd” najlepiej opisać jako „część obserwacji, która jest nieprzewidywalna, biorąc pod uwagę nasze aktualne informacje”. Próba myślenia w kategoriach populacji w porównaniu z próbą prowadzi do problemów pojęciowych (cóż, i tak mi się to zdarza), podobnie jak myślenie o błędach jako „czysto przypadkowych” pochodzących z pewnego rozkładu. myślenie w kategoriach przewidywania i „przewidywalności” ma dla mnie znacznie większy sens.
źródło
Oto bardzo przydatny link wyjaśniający prostą regresję liniową: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html może może pomóc w zrozumieniu pojęcia „błędu”.
FD
źródło
Nie zgadzam się z tym sformułowaniem profesora. Jak mówisz, idea, że wariancja jest taka sama dla każdej osoby, oznacza, że składnik błędu reprezentuje tylko błąd pomiaru. Zwykle nie jest to sposób konstruowania podstawowego modelu regresji wielokrotnej. Również, jak mówisz, wariancja jest zdefiniowana dla grupy (niezależnie od tego, czy jest to grupa indywidualnych podmiotów, czy grupa pomiarów). Nie ma zastosowania na poziomie indywidualnym, chyba że powtórzysz kroki.
Model musi być kompletny, ponieważ warunek błędu nie powinien zawierać wpływów zmiennych, które są skorelowane z predyktorami. Zakłada się, że składnik błędu jest niezależny od predyktorów. Jeśli jakaś skorelowana zmienna zostanie pominięta, otrzymasz współczynniki tendencyjne (nazywa się to odchyleniem zmiennej pomijanej ).
źródło