Oto artykuł, który uzasadnił to pytanie: Czy niecierpliwość czyni nas grubymi?
Podobał mi się ten artykuł, który ładnie pokazuje koncepcję „kontrolowania innych zmiennych” (iloraz inteligencji, kariera, dochód, wiek itp.) W celu jak najlepszego wyodrębnienia prawdziwej relacji między tylko dwiema wymienionymi zmiennymi.
Czy możesz mi wyjaśnić, jak faktycznie kontrolujesz zmienne w typowym zbiorze danych?
Na przykład, jeśli masz 2 osoby o tym samym poziomie niecierpliwości i BMI, ale o różnych dochodach, jak traktujesz te dane? Czy dzielisz je na różne podgrupy, które mają podobny dochód, cierpliwość i BMI? Ale ostatecznie istnieją dziesiątki zmiennych, które należy kontrolować (iloraz inteligencji, kariera, dochód, wiek itp.) Jak następnie agregujesz te (potencjalnie) setki podgrup? W rzeczywistości mam wrażenie, że to podejście szczeka na niewłaściwe drzewo, teraz, kiedy to zwerbalizowałem.
Dzięki, że rzuciłeś trochę światła na coś, z czego od kilku lat chciałem dotrzeć do dna ...!
Odpowiedzi:
Istnieje wiele sposobów kontrolowania zmiennych.
Najłatwiejszym i jednym z tych, które wymyśliłeś, jest rozwarstwienie danych, dzięki czemu masz podgrupy o podobnych cechach - istnieją wtedy metody na połączenie tych wyników, aby uzyskać jedną „odpowiedź”. Działa to, jeśli masz bardzo małą liczbę zmiennych, które chcesz kontrolować, ale jak słusznie odkryłeś, szybko się rozpada, gdy dzielisz dane na coraz mniejsze części.
Bardziej powszechnym podejściem jest uwzględnianie zmiennych, które chcesz kontrolować w modelu regresji. Na przykład, jeśli masz model regresji, który można koncepcyjnie opisać jako:
Oszacowanie, jakie otrzymasz za niecierpliwość, będzie efektem niecierpliwości w obrębie poziomów innych zmiennych towarzyszących - regresja pozwala zasadniczo wygładzić miejsca, w których nie masz dużo danych (problem z podejściem stratyfikacyjnym), choć należy to zrobić z ostrożnością.
Istnieją jeszcze bardziej wyrafinowane sposoby kontrolowania innych zmiennych, ale istnieje prawdopodobieństwo, że ktoś powie „kontrolowany dla innych zmiennych”, co oznacza, że zostały one uwzględnione w modelu regresji.
W porządku, poprosiłeś o przykład, na którym możesz popracować, aby zobaczyć, jak to działa. Przeprowadzę cię krok po kroku. Wszystko czego potrzebujesz to zainstalowana kopia R.
Po pierwsze potrzebujemy danych. Wytnij i wklej następujące fragmenty kodu do R. Pamiętaj, że to wymyślony przykład, który wymyśliłem na miejscu, ale pokazuje proces.
To twoje dane. Zauważ, że znamy już związek między wynikiem, ekspozycją i zmienną towarzyszącą - to jest punkt wielu badań symulacyjnych (których jest to niezwykle prosty przykład. Zaczynasz od znanej struktury i upewniasz się, że twoja metoda może uzyskać właściwą odpowiedź.
Teraz przejdźmy do modelu regresji. Wpisz następujące polecenie:
Czy dostałeś Intercept = 2,0 i ekspozycję = 0,6766? A może coś podobnego, biorąc pod uwagę, że w danych będą jakieś losowe różnice? Dobrze - ta odpowiedź jest zła. Wiemy, że to źle. Dlaczego to jest złe? Nie udało się kontrolować zmiennej, która wpływa na wynik i ekspozycję. Jest to zmienna binarna, zrób to, co chcesz - płeć, palacz / niepalący itp.
Teraz uruchom ten model:
Tym razem powinieneś otrzymać współczynniki Intercept = 2,00, ekspozycja = 0,50 i zmienną towarzyszącą 0,25. To, jak wiemy, właściwa odpowiedź. Kontrolowałeś inne zmienne.
Co dzieje się, gdy nie wiemy, czy zadbaliśmy o wszystkie zmienne, których potrzebujemy (nigdy tak naprawdę nie robimy)? Nazywa się to zamieszaniem szczątkowym i jest przedmiotem troski w większości badań obserwacyjnych - że kontrolowaliśmy niedoskonale, a nasza odpowiedź, choć prawy, nie jest dokładna. Czy to pomaga bardziej?
źródło
Wprowadzenie
Podoba mi się odpowiedź @ EpiGrad (+1), ale niech spojrzę z innej perspektywy. Poniżej odnoszę się do tego dokumentu PDF: „Analiza regresji wielokrotnej: oszacowanie” , która zawiera sekcję „Interpretacja interpretacji regresji wielokrotnej” (s. 83f.). Niestety nie mam pojęcia, kto jest autorem tego rozdziału i będę go nazywał REZERWACJĄ. Podobne wyjaśnienie można znaleźć w Kohler / Kreuter (2009) „Analiza danych za pomocą Staty” , rozdział 8.2.3 „Co oznacza„ pod kontrolą ”?
Wykorzystam przykład @ EpiGrad, aby wyjaśnić to podejście. Kod R i wyniki można znaleźć w załączniku.
Należy również zauważyć, że „kontrolowanie innych zmiennych” ma sens tylko wtedy, gdy zmienne objaśniające są umiarkowanie skorelowane (kolinearność). W wyżej wspomnianym przykładzie korelacja iloczynu produktu między
exposure
icovariate
wynosi 0,50, tj.Pozostałości
Zakładam, że rozumiesz pojęcie reszt w analizie regresji. Oto wyjaśnienie Wikipedii : „Jeśli ktoś wykonuje regresję niektórych danych, wówczas odchylenia obserwacji zmiennych zależnych od dopasowanej funkcji są resztkami”.
Co oznacza „pod kontrolą”?
Kontrolując zmienną
covariate
, wpływ (waga regresji)exposure
naoutcome
można opisać w następujący sposób (jestem niechlujny i pomijam większość indeksów i wszystkich czapek, proszę odnieść się do wyżej wymienionego tekstu, aby uzyskać dokładny opis):są reszty, gdy ustąpiąna, tznR e s i di 1
exposure
covariate
Te "reszty [..] to część , który jest skorelowany z X i 2 . [...] W ten sposób, p 1 Mierzy związek próbki między Y i x 1 po x 2 został partialled out" ( REGCHAPTER 84). „Częściowo podzielony” oznacza „kontrolowany dla”.xi1 xi2 β^1 y x1 x2)
Zaprezentuję ten pomysł na przykładowych danych @ EpiGrad. Najpierw zresetuję
exposure
sięcovariate
. Ponieważ interesują mnie tylko resztkilmEC.resid
, pomijam wynik.Następnym krokiem jest regres
outcome
na tych resztkach (lmEC.resid
):Jak widać, masa regresjiβl m E.do. R e s i d= 0,50 0,50
lmEC.resid
(patrz kolumna szacunkowych, ) w tej prostej regresji jest równa wielokrotności masy regresji , która jest także 0.50 (patrz @ odpowiedź EpiGrad za lub wyjście R poniżej).covariate
dodatek
Kod R.
R Wyjście
źródło
Oczywiście w grę wchodzi pewna matematyka, ale to niewiele: Euclid dobrze to zrozumiałby. Wszystko, co naprawdę musisz wiedzieć, to jak dodawać i przeskalowywać wektory. Chociaż obecnie nazywa się to „algebrą liniową”, wystarczy ją zwizualizować w dwóch wymiarach. Pozwala nam to uniknąć maszynerii macierzowej algebry liniowej i skupić się na pojęciach.
Geometryczna historia
(Jeśli istnieją dodatkowe wektory, kontynuowalibyśmy proces „wyjmowania elementu dopasowującego”, aż każdy z tych wektorów miał swoją kolejność. W każdym przypadku operacje byłyby takie same jak pokazano tutaj i zawsze występowałyby w samolot .)
Zastosowanie do regresji wielokrotnej
Dopasowywanie można wykonać kolejno i
Kolejność dopasowywania nie ma znaczenia.
Proces „wyjmowania” dopasowującego przez zastępowanie wszystkich innych wektorów ich resztkami jest często określany jako „kontrolujący” dla dopasowującego. Jak widzieliśmy na rycinach, po kontrolowaniu dopasowywania wszystkie kolejne obliczenia wprowadzają korekty prostopadłe do tego dopasowywania. Jeśli chcesz, możesz pomyśleć o „kontrolowaniu” jak o „rozliczaniu (w najmniejszym sensie kwadratowym) wkładu / wpływu / efektu / powiązania dopasowywania we wszystkich innych zmiennych”.
Bibliografia
Możesz zobaczyć to wszystko w akcji z danymi i działającym kodem w odpowiedzi na https://stats.stackexchange.com/a/46508 . Ta odpowiedź może bardziej spodobać się osobom, które wolą arytmetykę od zdjęć samolotów. (Arytmetyka dostosowywania współczynników podczas sekwencyjnego wprowadzania dopasowań jest jednak prosta). Język dopasowywania pochodzi od Freda Mostellera i Johna Tukeya.
źródło
Jak dotąd istnieje doskonała dyskusja na temat dostosowania zmiennych towarzyszących jako sposobu „kontrolowania innych zmiennych”. Ale myślę, że to tylko część historii. W rzeczywistości istnieje wiele (innych) strategii opartych na projektowaniu, modelowaniu i uczeniu maszynowym, mających na celu zaradzenie wpływowi wielu możliwych zmiennych. To jest krótka ankieta na temat niektórych najważniejszych (nieregulacyjnych) tematów. Chociaż korekta jest najczęściej stosowanym sposobem „kontrolowania” innych zmiennych, uważam, że dobry statystyk powinien rozumieć, co robi (i czego nie robi) w kontekście innych procesów i procedur.
Pasujący:
Dopasowywanie to metoda projektowania sparowanej analizy, w której obserwacje są pogrupowane w zestawy 2, które pod innymi względami są podobne w najważniejszych aspektach. Na przykład, możesz próbować dwóch osób, które są zgodne co do ich wykształcenia, dochodów, stażu zawodowego, wieku, stanu cywilnego, (itp. Itp.), Ale które są niezgodne ze względu na ich niecierpliwość. W przypadku ekspozycji binarnych wystarczy prosty test sparowany t, aby sprawdzić średnią różnicę w ich kontrolowaniu BMI dla wszystkich pasujących funkcji. Jeśli modelujesz ciągłą ekspozycję, analogiczną miarą byłby model regresji poprzez pochodzenie różnic. Patrz Carlin 2005
Ważenie
Randomizacja i quasirandomizacja
Jest to subtelna kwestia, ale jeśli faktycznie jesteś w stanie losowo przypisać ludzi do określonych warunków eksperymentalnych, wpływ innych zmiennych zostanie złagodzony. Jest to warunek znacznie silniejszy, ponieważ nie musisz nawet wiedzieć, jakie są te inne zmienne. W tym sensie „kontrolujesz” ich wpływ. Nie jest to możliwe w badaniach obserwacyjnych, ale okazuje się, że metody oceny skłonności tworzą prosty probabilistyczny miernik ekspozycji, który pozwala na zważenie, dostosowanie lub dopasowanie uczestników, aby mogli być analizowani w ten sam sposób jak badanie quasi-losowe . Patrz Rosenbaum, Rubin 1983 .
Mikrosymulacja
Innym sposobem symulacji danych, które można uzyskać z randomizowanego badania, jest wykonanie mikrosymulacji. Tutaj można zwrócić uwagę na większe i bardziej wyrafinowane uczenie maszynowe, takie jak modele. Termin, który ukształtował Judea Pearl, który mi się podoba, to „ Modele Oracle ”: złożone sieci, które są w stanie generować prognozy i prognozy dla wielu funkcji i wyników. Okazuje się, że można „złożyć” informacje o takim modelu wyroczni, aby zasymulować wyniki w zrównoważonej kohorcie osób, które reprezentują losową kohortę, zrównoważoną w rozkładzie „zmiennej kontrolnej” i używając prostych procedur testu t do oceny wielkość i precyzja możliwych różnic. Patrz Rutter, Zaslavsky i Feuer 2012
Dopasowywanie, ważenie i dopasowanie współzmienne w modelu regresji szacują te same powiązania, a zatem można twierdzić, że są sposobami „kontrolowania” innych zmiennych .
źródło
źródło