Kiedy niewłaściwe modele liniowe stają się wyjątkowo piękne?

Pytania:

Czy w praktyce stosowane są niewłaściwe modele liniowe, czy też jest to pewnego rodzaju ciekawość opisywana od czasu do czasu w czasopismach naukowych? Jeśli tak, w jakich obszarach są one wykorzystywane?
Czy są inne przykłady takich modeli?
Wreszcie, czy standardowe błędy, wartości , itd. Pobrane z OLS dla takich modeli byłyby poprawne, czy powinny być w jakiś sposób poprawione? $p$ $R^2$

Tło: Niewłaściwe modele liniowe są od czasu do czasu opisane w literaturze. Ogólnie rzecz biorąc, takie modele można opisać jako

y = a + b \sum_{i} w_{i} x_{i} + ε

$y = a + b \sum_i w_i x_i + \varepsilon$

tym, co odróżnia je od regresji, jest to, że nie są współczynnikami oszacowanymi w modelu, ale są wagami, które są $w_j$

równa dla każdej zmiennej ( regresja ważona jednostką ), $w_i = 1$
na podstawie korelacji (Dana and Dawes, 2004), $w_i = \rho(y, x_i)$
wybrany losowo (Dawes, 1979),
$-1$ dla zmiennych ujemnie powiązanych z , dla zmiennych pozytywnie powiązanych z (Wainer, 1976). $y$ $1$ $y$

Także to jest powszechne w użyciu pewnego rodzaju funkcji skalowania, jak konwersja zmiennych do -Wyniki. Ten rodzaj modelu można uprościć, aby uzyskać regresję jednowymiarową $Z$

y = a + b v + ε

$y = a + b v + \varepsilon$

gdzie i mogą być łatwo oszacowane z zastosowaniem OLS regresji. $v = \sum w_i x$

Odniesienia:
Dawes, Robyn M. (1979). Mocne piękno niewłaściwych modeli liniowych w podejmowaniu decyzji . American Psychologist, 34, 571-582.

Graefe, A. (2015). Poprawa prognoz za pomocą równo ważonych predyktorów . Journal of Business Research, 68 (8), 1792-1799.

Wainer, Howard (1976). Oszacowanie współczynników w modelach liniowych: nie ma to żadnego znaczenia . Biuletyn psychologiczny 83 (2), 213.

Dana, J. i Dawes, RM (2004). Przewaga prostych alternatyw dla regresji w prognozach nauk społecznych . Journal of Educational and Behavioral Statistics, 29 (3), 317-331.

regression references linear-model robust Tim
źródło

W jakim sensie statystyki pochodzące z tych modeli byłyby „niepoprawne”?

whuber

Kiedy są wstępnie określone i oszacowane , jest to po prostu redukcja danych przeprowadzana na predyktorach - dość powszechna w różnych formach (patrz np. Skala śpiączki Glasgow i wskaźnik współwystępowania Charlsona) - co nie wpłynie na ważność wnioskowania w zwykłym frameworku OLS. Gdy jest używane do określenia s, standardowe błędy & c. wyjdzie w optymistycznym kierunku, jak sądzę.

w_{i}

$w_i$

b

$b$

y

$y$

w_{i}

$w_i$

Scortchi - Przywróć Monikę

To nie był świadomy komentarz - papiery wciąż są na moim stosie „do przeczytania”. Zastanawiałem się tylko: - „dlaczego” niewłaściwe? ”. Nie jest niczym niezwykłym, że predyktor jest liniową kombinacją innych zmiennych - średnią z kilku pomiarów, ocenę głównego składnika, prognozę z innej regresji, poziom z wykładniczo wygładzonego szeregu czasowego lub wartość obliczoną z dobrze ustalonej lub indeks ad hoc. Brak oszacowania ciężaru na podstawie odpowiedzi oszczędza stopnie swobody, pomagając uniknąć nadmiernego dopasowania przy mniejszych próbkach.

Scortchi - Przywróć Monikę

W np. Beddhu (2000) „Prosta skala chorób współistniejących przewiduje wyniki kliniczne i koszty u pacjentów dializowanych” Am. J. Med., 108 , 8 równanie modelowe ma taką samą formę jak twoja, gdzie są zdefiniowane jako zmienne wskaźnikowe dla cukrzycy, chłoniaka itp., A s są wstępnie określone. Wydaje mi się, że to, co mówię, polega na tym, że rozróżnienie między „niewłaściwymi” i „właściwymi” modelami regresji wydaje się opierać na pojęciu zbioru danych podanego przez Boga , dla którego „właściwy” model oszacowałby współczynnik .

x_{i}

$x_i$

w_{i}

$w_i$

x_{i}

$x_i$

Scortchi - Przywróć Monikę

Gdy i jeśli zostały oszacowane na podstawie tych samych danych, model jest odpowiedni, byłby to zupełnie inny kociołek z rybami.

w_{i} = ρ (y, x_{i})

$w_i = \rho(y, x_i)$

ρ

$\rho$

Scortchi - Przywróć Monikę

W efekcie wydaje mi się, że jest to zestaw założonych struktur kowariancji. Innymi słowy, jest to rodzaj wcześniejszego modelowania bayesowskiego.

Zwiększa to wytrzymałość w porównaniu ze zwykłą procedurą MLR, ponieważ liczba parametrów ( df) jest zmniejszona, i wprowadza niedokładność ze względu na zwiększone pominięte zmienne odchylenie , OVB. Z powodu OVB nachylenie jest spłaszczone,, współczynnik determinacji jest zmniejszony . $\downarrow$ $|\hat\beta|<|\beta|$ $\hat{R}^2<R^2$

Moje osobiste doświadczenie jest takie, że nadrzędnym w stosunku do bayesowskiego podejścia jest lepsze modelowanie; przekształcać parametry, stosować inne normy i / lub stosować metody nieliniowe. Oznacza to, że gdy fizyka problemu i metody zostaną właściwie zbadane i skoordynowane, statystyki F, współczynnik determinacji itp. Poprawią się, a nie pogorszą.

Carl
źródło

Kiedy niewłaściwe modele liniowe stają się wyjątkowo piękne?

Odpowiedzi: