Jak konceptualizować błąd w modelu regresji?

11

Uczęszczam na klasę analizy danych i niektóre z moich głęboko zakorzenionych pomysłów są wstrząśnięte. Mianowicie idea, że ​​błąd (epsilon), a także jakakolwiek inna wariancja, odnosi się tylko (tak myślałem) do grupy (próbki lub całej populacji). Teraz uczymy się, że jednym z założeń regresji jest to, że wariancja jest „taka sama dla wszystkich osób”. To mnie w jakiś sposób szokuje. Zawsze myślałem, że to wariancja Y we wszystkich wartościach X była założona jako stała.

Rozmawiałem z profesorem, który powiedział mi, że kiedy przeprowadzamy regresję, zakładamy, że nasz model jest prawdziwy. I myślę, że to trudna część. Dla mnie termin błędu (epsilon) zawsze oznaczał coś w rodzaju „dowolnych elementów, których nie znamy i które mogą wpłynąć na naszą zmienną wyniku plus błąd pomiaru”. W sposobie nauczania klasy nie ma czegoś takiego jak „inne rzeczy”; zakłada się, że nasz model jest prawdziwy i kompletny. Oznacza to, że wszelkie zmiany rezydualne należy traktować jako iloczyn błędu pomiaru (dlatego należy oczekiwać, że pomiar pojedynczego 20 razy spowoduje taką samą wariancję, jak jednorazowy pomiar 20 osobników).

Czuję, że coś jest gdzieś nie tak, chciałbym zasięgnąć opinii eksperta na ten temat ... Czy jest miejsce na interpretację tego, co oznacza błąd, pod względem koncepcyjnym?

Dominic Comtois
źródło
3
Być może miał na myśli to, że nawet jeśli model jest prawdziwy, w odpowiedziach nadal występuje losowa zmienność - jest to uchwycone przez wariancję błędu - można to na przykład przypisać niedoskonałemu aparatowi pomiarowemu. Inni czasem konceptualizują wariancję błędu jako taką z powodu brakujących predyktorów (niekoniecznie błędów w postaci modelu), co sugeruje, że gdyby wszystkie możliwe predyktory zostały zmierzone, wariancja błędu wynosiłaby 0. To nie jest niespójne z pierwszym - błędami w pomiarze można uznać za „brakujący predyktor”.
Makro
Myślę, że jedną rzeczą, którą na początku zawsze trudno zrozumieć, jest to, że „błąd” może oznaczać różne rzeczy w tym przypadku. „Błąd” może odnosić się do różnicy między dopasowanymi wartościami, które uzyskujemy z naszego modelu, a obserwowanymi wartościami (rozbieżność może wynikać z dość oszczędnego modelu, np.). „Błąd” może również oznaczać różnicę między wartościami obserwowanymi a wartościami rzeczywistymi (rozbieżność może wynikać, powiedzmy, z urządzenia używanego do mierzenia wartości zaokrągla się do najbliższej liczby całkowitej / dziesiątej części dziesiętnej itp.). [Pierwszy typ to miejsce, w którym usłyszysz terminy takie jak „resztki / rezydualna wariancja.”]
@Macro Tak, wydaje mi się to naturalnym sposobem myślenia o błędzie. Staram się jednak zrozumieć, dlaczego profesor nalegał na bardziej rygorystyczną definicję (myślenie, że ma zastosowanie do każdej osoby, nawet jeśli wiemy w rzeczywistości, to nieprawda).
Dominic Comtois
@MikeWierzbicki Right. I jeśli dobrze rozumiem, wszystko to jest skupione w „ścisłym” punkcie widzenia. Oznacza to, że cała różnica między obserwowanymi a przewidywanymi wartościami wynika z błędu pomiaru, ponieważ nasz model „musi być prawdziwy”.
Dominic Comtois

Odpowiedzi:

2

Jeśli istnieją aspekty jednostek, które mają wpływ na wynikowe wartości y, to albo istnieje jakiś sposób na uzyskanie tych aspektów (w takim przypadku powinny one być częścią predyktora x), albo nie ma możliwości, aby kiedykolwiek do nich dojść Informacja.

Jeśli nie ma sposobu na uzyskanie tych informacji i nie ma możliwości wielokrotnego pomiaru wartości y dla osób, to naprawdę nie ma to znaczenia. Jeśli możesz mierzyć y wielokrotnie, a twój zestaw danych rzeczywiście zawiera powtarzane pomiary dla niektórych osób, masz potencjalny problem na rękach, ponieważ teoria statystyczna zakłada niezależność błędów pomiarowych / reszt.

Załóżmy na przykład, że próbujesz dopasować model formularza

y=β0+β1x ,

i że dla każdej osoby

yind=100+10x+z ,

gdzie z zależy od osobnika i jest zwykle rozkładane ze średnią 0 i odchyleniem standardowym 10. Dla każdego powtarzanego pomiaru osobnika,

ymeas=100+10x+z+e ,

gdzie jest zwykle rozkładane ze średnią 0 i odchyleniem standardowym 0,1. e

Możesz spróbować to wymodelować jako

y=β0+β1x+ϵ ,

gdzie jest zwykle rozkładany ze średnią 0 i odchyleniem standardowymϵ

σ=102+0.12=100.01 .

Dopóki masz tylko jeden pomiar dla każdej osoby, byłoby dobrze. Jeśli jednak masz wiele pomiarów dla tej samej osoby, wówczas twoje resztki nie będą już niezależne!

Na przykład, jeśli masz jedną osobę ze z = 15 (1,5 odchylenia standardowego, więc nie jest to nieuzasadnione), i sto powtarzanych pomiarów tej osoby, to używając i (dokładne wartości!) skończyłoby się to 100 resztkami o około 1,5 odchylenia standardowego, co wyglądałoby niezwykle nieprawdopodobnie. Wpłynęłoby to na statystyki . β 1 = 10 χ 2β0=100β1=10χ2

Brian Borchers
źródło
W mojej odpowiedzi starałem się unikać przerażającego terminu „modelowanie wielopoziomowe”, ale należy pamiętać, że w niektórych przypadkach zapewnia to sposób radzenia sobie z tego rodzaju sytuacją.
Brian Borchers,
1

Myślę, że „błąd” najlepiej opisać jako „część obserwacji, która jest nieprzewidywalna, biorąc pod uwagę nasze aktualne informacje”. Próba myślenia w kategoriach populacji w porównaniu z próbą prowadzi do problemów pojęciowych (cóż, i tak mi się to zdarza), podobnie jak myślenie o błędach jako „czysto przypadkowych” pochodzących z pewnego rozkładu. myślenie w kategoriach przewidywania i „przewidywalności” ma dla mnie znacznie większy sens.

p(e1,,en)E(1ni=1nei2)=σ2σ2σ

n

prawdopodobieństwo prawdopodobieństwa
źródło
σ2
p(e1,,en)1
A przez zamknięcie rozumiem, że rozbieżność kl jest zminimalizowana
prawdopodobieństwo jest
Dylemat nie dotyczy próby i populacji. Chodzi o myślenie o błędzie w odniesieniu do poszczególnych osób w porównaniu z próbą / populacją.
Dominic Comtois
1

Nie zgadzam się z tym sformułowaniem profesora. Jak mówisz, idea, że ​​wariancja jest taka sama dla każdej osoby, oznacza, że ​​składnik błędu reprezentuje tylko błąd pomiaru. Zwykle nie jest to sposób konstruowania podstawowego modelu regresji wielokrotnej. Również, jak mówisz, wariancja jest zdefiniowana dla grupy (niezależnie od tego, czy jest to grupa indywidualnych podmiotów, czy grupa pomiarów). Nie ma zastosowania na poziomie indywidualnym, chyba że powtórzysz kroki.

Model musi być kompletny, ponieważ warunek błędu nie powinien zawierać wpływów zmiennych, które są skorelowane z predyktorami. Zakłada się, że składnik błędu jest niezależny od predyktorów. Jeśli jakaś skorelowana zmienna zostanie pominięta, otrzymasz współczynniki tendencyjne (nazywa się to odchyleniem zmiennej pomijanej ).

Anne Z.
źródło
Nie do końca rozumiem tę odpowiedź. wydaje się rozpoznawać różnicę między błędem wynikającym z braku dopasowania a błędem losowym, ale ostatnie pytanie retoryczne wydaje się mylące. Z czysto formalnego punktu widzenia zasadniczo każde wnioskowanie dotyczące modelu regresji opiera się na bardzo wyraźnych założeniach dotyczących struktury hałasu.
kardynał
1
Chodzi mi o to, że w wielu przypadkach modelowanie regresji ma na celu ustalenie, co się dzieje, nawet jeśli nie znamy wszystkich przyczyn konkretnego wyniku. Ale ponieważ wydaje się niejasne, usunę to pytanie.
Anne Z.
Dzięki. Punkt w twoim komentarzu jest dobry. Poprzednie pytanie, które wypowiedziałeś, można odczytać jako kwestionowanie całej podstawy, na której opiera się teoria regresji. :)
kardynał
Zgadzam się z tobą w twoim sporze (stąd moje pytanie!), A pominięte zmienne odchylenie jest dość istotne dla problemu. Dzięki.
Dominic Comtois