Jestem nieco zdezorientowany, jeśli zmienna niezależna (zwana również predyktorem lub cechą) w modelu statystycznym, na przykład w regresji liniowej , jest zmienną losową?
25
Jestem nieco zdezorientowany, jeśli zmienna niezależna (zwana również predyktorem lub cechą) w modelu statystycznym, na przykład w regresji liniowej , jest zmienną losową?
Odpowiedzi:
Istnieją dwie popularne formuły regresji liniowej. Aby skupić się na koncepcjach, nieco je streszczę. Opis matematyczny jest nieco bardziej zaangażowany niż opis angielski, więc zacznijmy od drugiego:
W większości przypadków zestaw możliwych rozkładów jest rodziną lokalizacji o parametrachα i θ a β(X) daje parametr α . Archetypowym przykładem jest regresja zwykła, w której zestaw rozkładów to rodzina normalna N(μ,σ) a μ=β(X) jest funkcją liniową regresorów.
Ponieważ nie opisałem tego jeszcze matematycznie, wciąż pozostaje otwarte pytanie, do jakiego rodzaju obiektów matematycznychX , Y , β i θ odnoszą się - i uważam, że jest to główny problem w tym wątku. Chociaż można dokonać różnych (równoważnych) wyborów, większość będzie odpowiadała lub będzie opisywana w szczególnych przypadkach następujący opis.
Naprawiono regresory. W regresory są reprezentowane jako rzeczywiste wektorówX∈Rp . Reakcja jest zmienną losową Y:Ω→R (gdzie Ω jest wyposażony w dziedzinie sigma i prawdopodobieństwa). Modelu jest funkcją f:R×Θ→Md (albo, jeśli chce, zestaw funkcji R→Md parametryzowane Θ ). Md jest skończonym wymiarowym topologicznym (zwykle drugim rozróżnialnym) podfolderem (lub podmanifoldem z granicą) wymiaru d przestrzeni rozkładów prawdopodobieństwa. f zwykle uważa się za ciągły (lub dostatecznie różnicowalny). Θ⊂Rd−1 są "parametry uciążliwe." Przypuszcza się, że rozkład Y wynosi f(β(X),θ) dla niektórych nieznanych wektorów podwójnych β∈Rp∗ („współczynniki regresji”) i nieznanych θ∈Θ . Możemy zapisać to Y∼f(β(X),θ).
Losowe regresory. W regresory i reakcji sąp+1 wymiarowy wektor o wartościach zmienną losową Z=(X,Y):Ω′→Rp×R . Model f jest tym samym rodzajem obiektu, co wcześniej, ale teraz daje warunkowe prawdopodobieństwo Y| X∼ f( β( X) , θ ) .
Opis matematyczny jest bezużyteczny bez recepty określającej, w jaki sposób ma być stosowany do danych. W przypadku ustalonego regresora rozumiemyX jako określony przez eksperymentatora. Dlatego pomocne może być postrzeganie Ω jako iloczynu Rp× Ω′ wyposażonego w algebrę sigma produktu. Eksperymentator określa X a natura określa (niektóre nieznane, abstrakcyjne) ω ∈ Ω′ . W przypadku regresora losowego natura określa ω ∈ Ω′ , X składnik zmiennej losowej πX( Z( ω ) ) określaX (co jest „obserwowane”), a teraz mamy uporządkowaną parę( X( ω ) , ω ) ) ∈ Ω dokładnie tak, jak w przypadku regresora ustalonego.
Archetypowym przykładem wielokrotnej regresji liniowej (którą wyrażę za pomocą standardowej notacji dla obiektów zamiast tej bardziej ogólnej) jest to, żefa( β( X) , σ) = N( β( x ) , σ) dla pewnej stałej σ∈ Θ = R+ . Ponieważ x zmienia się w obrębie Rp , jego obraz w różny sposób wykreśla jednowymiarowy podzbiór - krzywą - w dwuwymiarowym rozmaitym rozkładzie normalnym.
Gdy - w dowolny sposób whatsoever--β jest szacowana jako p i Ď jako Ď wartość P ( x ) jest wartość przewidywana z Y związane z x --whether x jest sterowany przez eksperymentatora (przypadek 1 ) lub obserwuje się tylko (przypadek 2). Jeśli albo ustawienie wartości (przypadek 1), lub obserwuje się realizacja (przypadek 2) x w X , wówczas odpowiedź T związane z tym X jest zmienną losową, której rozkład jest N- (β^ σ σ^ β^( x ) Y x x x X Y X N.( β( x ) , σ) , co jest znane, leczszacujesięN.( β^( x ) , σ^) .
źródło
Po pierwsze @whuber udzielił doskonałej odpowiedzi. Spróbuję inaczej, może w pewnym sensie prościej, również w odniesieniu do tekstu.
MOTYWACJA
może być losowy lub ustalony w formule regresji. To zależy od twojego problemu. W przypadku tak zwanych badań obserwacyjnych musi być losowy, a w przypadku eksperymentów zwykle jest ustalony.X
Przykład pierwszy Badam wpływ ekspozycji na promieniowanie elektronowe na twardość części metalowej. Biorę więc kilka próbek części metalowej i wystawiam na działanie różnych poziomów promieniowania. Mój poziom ekspozycji to X i jest ustalony , ponieważ ustawiłem poziomy, które wybrałem. W pełni kontroluję warunki eksperymentu, a przynajmniej próbuję. Mogę zrobić to samo z innymi parametrami, takimi jak temperatura i wilgotność.
Przykład drugi Badasz wpływ ekonomii na częstotliwość występowania oszustw w aplikacjach kart kredytowych. Więc regresujesz, że zdarzenie oszustwa liczy się z PKB. Nie kontrolujesz PKB, nie możesz ustawić żądanego poziomu. Co więcej, prawdopodobnie chcesz przyjrzeć się regresjom wielowymiarowym, więc masz inne zmienne, takie jak bezrobocie, a teraz masz kombinację wartości w X, które obserwujesz , ale których nie kontrolujesz. W tym przypadku X jest losowy .
Przykład trzeci Badasz skuteczność nowego pestycydu na polu, tj. Nie w warunkach laboratoryjnych, ale w rzeczywistej farmie eksperymentalnej. W takim przypadku możesz coś kontrolować, np. Możesz kontrolować ilość pestycydów do umieszczenia. Nie kontrolujesz jednak wszystkiego, np. Warunków pogodowych lub glebowych. Ok, możesz kontrolować glebę do pewnego stopnia, ale nie do końca. Jest to przypadek pośredni, w którym niektóre warunki są przestrzegane, a niektóre warunki są kontrolowane . Jest cały ten obszar badań zwany projektowaniem eksperymentalnym, który naprawdę koncentruje się na tym trzecim przypadku, w którym badania w rolnictwie są jednym z największych jego zastosowań.
MATEMATYKA
Oto matematyczna część odpowiedzi. Istnieje zestaw założeń, które zwykle przedstawia się podczas badania regresji liniowej, zwanych warunkami Gaussa-Markowa. Są bardzo teoretyczni i nikt nie zadaje sobie trudu, aby udowodnić, że trzymają się praktycznie każdej konfiguracji. Są one jednak bardzo przydatne w zrozumieniu ograniczeń zwykłej metody najmniejszych kwadratów (OLS).
Tak więc zestaw założeń jest inny dla losowego i ustalonego X, które z grubsza odpowiadają badaniom obserwacyjnym vs. eksperymentalnym. Z grubsza, ponieważ, jak pokazałem w trzecim przykładzie, czasami jesteśmy naprawdę pomiędzy skrajnościami. Przekonałem się, że sekcja twierdzenia „Gaussa-Markowa” w Encyklopedii badań naukowych Salkinda jest dobrym miejscem do rozpoczęcia, jest dostępna w Google Books.
Odmienne założenia ustalonego projektu są następujące dla zwykłego modelu regresji :Y= Xβ+ ε
a te same założenia w projekcie losowym:
Jak widać, różnicą jest warunkowanie założeń macierzy projektowej dla projektu losowego. Uwarunkowanie czyni te założenia silniejszymi. Na przykład nie mówimy po prostu, jak w przypadku ustalonego projektu, że błędy mają zerową średnią; w losowym projekcie mówimy również, że nie są zależne od współzmiennych X.
źródło
W statystyce zmienna losowa to ilość, która zmienia się losowo w pewien sposób. Dobra dyskusja znajduje się w tym doskonałym wątku CV: Co oznacza „zmienna losowa”?
W modelu regresji zakłada się, że zmienne predykcyjne (zmienne X, zmienne objaśniające, zmienne towarzyszące itp.) Są ustalone i znane . Nie zakłada się, że są przypadkowe. Zakłada się, że cała losowość w modelu jest wyrażona jako błąd. Rozważ prosty model regresji liniowej, jak sformułowano standardowo:
Pojęcie błędu ε jest zmienną losową i jest źródłem losowości w modelu. W wyniku tego błędu Y jest również zmienną losową. Alenie przyjmuje się, że X jest zmienną losową. (Oczywiście może to być zmienna losowaw rzeczywistości, ale nie jest to założone ani odzwierciedlone w modelu).
źródło
Nie jestem pewien, czy rozumiem pytanie, ale jeśli tylko pytasz: „zmienna niezależna zawsze musi być zmienną losową”, to odpowiedź brzmi „nie”.
Zmienna niezależna jest zmienną, która, jak się zakłada, jest skorelowana ze zmienną zależną. Następnie testujesz, czy tak jest w przypadku modelowania (przypuszczalnie analiza regresji).
Jest tu wiele komplikacji i „jeśli, ale i majteczki”, więc sugerowałbym, aby uzyskać kopię podstawowej książki ekonometrii lub statystyki obejmującej analizę regresji i dokładne jej przeczytanie, lub też uzyskać notatki klasowe z podstawowych statystyk / ekonometrii kurs online, jeśli to możliwe.
źródło