Przejrzałem wiele zestawów danych R, wpisów w DASL i innych miejscach i nie znajduję zbyt wielu dobrych przykładów interesujących zestawów danych ilustrujących analizę kowariancji danych eksperymentalnych. Istnieje wiele „zabawkowych” zbiorów danych z wymyślonymi danymi w podręcznikach statystycznych.
Chciałbym mieć przykład, w którym:
- Dane są prawdziwe, z ciekawą historią
- Istnieje co najmniej jeden czynnik leczenia i dwie zmienne towarzyszące
- Na co najmniej jedną zmienną towarzyszącą wpływa jeden lub więcej czynników leczenia, a na leczenie nie ma wpływu.
- Najlepiej raczej eksperymentalne niż obserwacyjne
tło
Moim prawdziwym celem jest znalezienie dobrego przykładu umieszczenia winiety dla mojego pakietu R. Ale większym celem jest to, że ludzie muszą zobaczyć dobre przykłady, aby zilustrować niektóre ważne obawy w analizie kowariancji. Rozważmy następujący wymyślony scenariusz (i proszę zrozumieć, że moja wiedza na temat rolnictwa jest w najlepszym razie powierzchowna).
- Wykonujemy eksperyment, w którym nawozy są losowo przydzielane do działek, a rośliny są sadzone. Po odpowiednim okresie wzrostu zbieramy plony i mierzymy pewne cechy jakościowe - to zmienna odpowiedzi. Ale rejestrujemy również całkowite opady w okresie wegetacji oraz kwasowość gleby w czasie żniw - i, oczywiście, który nawóz został użyty. Mamy więc dwie zmienne towarzyszące i leczenie.
Zwykłym sposobem analizy uzyskanych danych byłoby dopasowanie modelu liniowego z traktowaniem jako czynnikiem i efektami addytywnymi dla zmiennych towarzyszących. Następnie, aby podsumować wyniki, oblicza się „skorygowane średnie” (AKA średnie najmniejszych kwadratów), które są prognozami z modelu dla każdego nawozu, przy średnich opadach i 3 średniej kwasowości gleby. To stawia wszystko na równi, ponieważ wtedy, gdy porównujemy te wyniki, utrzymujemy stałą ilość opadów i kwasowość.
Ale jest to prawdopodobnie niewłaściwa rzecz, ponieważ nawóz prawdopodobnie wpływa na kwasowość gleby, a także na reakcję. To powoduje, że skorygowane środki wprowadzają w błąd, ponieważ efekt leczenia obejmuje jego wpływ na kwasowość. Jednym ze sposobów poradzenia sobie z tym byłoby usunięcie kwasowości z modelu, a następnie środki skorygowane o opady zapewnią uczciwe porównanie. Ale jeśli kwasowość jest ważna, ta uczciwość wiąże się z dużymi kosztami, ponieważ zwiększa się zmienność resztkowa.
Istnieją sposoby obejścia tego problemu przy użyciu skorygowanej wersji kwasowości w modelu zamiast jej oryginalnych wartości. Nadchodząca aktualizacja mojego pakietu R. lsmeans sprawi, że będzie to wręcz łatwe. Ale chcę mieć dobry przykład, aby to zilustrować. Będę bardzo wdzięczny każdemu, kto może wskazać mi kilka dobrych przykładowych zestawów danych, i należycie go zaakceptuje.
Odpowiedzi:
Może chcesz sprawdzić
mediation
pakiet R. Obejmuje dane eksperymentalne, takie jakjobs
iframing
gdzie zmienna leczenia wpływa zarówno na zmienną odpowiedzi, jak i zmienne towarzyszące (tj. Mediatory efektu leczenia), a także zmienne, na które nie wpływa leczenie.Zajrzałem do literatury mediacyjnej, ponieważ myślałem, że dokładnie opisałeś badanie mediacyjne: wpływ nawozu na jakość plonów jest zależny od jego wpływu na kwasowość gleby. Nawet jeśli zestawy danych w
mediation
pakiecie nie spełniają twoich oczekiwań, możesz je znaleźć, jeśli zajrzysz do literatury mediacyjnej.źródło
framing
danych, wykresy interakcji LSmeans (oparte na modelu logistycznym), gdy zmienna mediacyjna jest utrzymywana na stałym poziomie, dramatycznie różnią się od tych, w których jest ustawiona na wartości prognozowane przez leczenie i inne zmienne towarzyszące, pokazując tym samym, jak ważne jest przyjęcie mediacji zmienna pod uwagę.Pomyślałem, że pokażę, jak wychodzi analiza z jednym z zestawów danych w pakiecie mediacji . W
framing
eksperyment odbywa gdzie pacjenci mają możliwość wysyłania wiadomości do Kongresu w sprawie imigracji. Jednak niektórym podmiotom (treat=1
) po raz pierwszy pokazano historię, która przedstawia Latynosów w negatywny sposób. Oprócz odpowiedzi binarnej (niezależnie od tego, czy wysłali wiadomość) mierzyliśmy równieżemp
stan emocjonalny badanych po zastosowaniu leczenia. Istnieją również różne zmienne demograficzne.Najpierw załadujmy potrzebne pakiety w R i zmień etykiety na
educ
krótsze ciągi.Teraz dopasuj model regresji logistycznej
Oto pokaz tradycyjnych dostosowanych środków, gdzie przepowiednie są wykonane ze zmiennych towarzyszących
age
,income
orazemo
określonych w ich średnich wartości:Jest to ciekawy wynik, ponieważ przedstawione efekty leczenia są odwrotne dla kobiet niż u mężczyzn, a efekt edukacji nie jest monotonowy, jak można się spodziewać.
Należy jednak pamiętać, że
emo
jest to pomiar po leczeniu. Oznacza to, że leczenie mogło na to wpłynąć, tj.emo
Jest zmienną towarzyszącą; i dlatego porównywanie prognoz zmiennej odpowiedzi może nie być sensowne, gdy jestemo
stała. Zamiast tego spójrzmy na przewidywania, w którychemo
ustawiono podane przewidywane wartościtreat
i zmienne demograficzne.Ten wynik jest zupełnie inny, co sugeruje, że
emo
odgrywa silną rolę mediatora. ( Pakiet mediacyjny ma funkcje szacowania siły tych efektów.) Powyższe prognozy sugerują, że biorąc pod uwagę reakcję emocjonalną, mężczyźni narażeni na negatywne wiadomości są bardziej skłonni do wysłania wiadomości niż kobiety lub osoby nie widzące historia negatywnych wiadomości. Ponadto efekteduc
jest (prawie) monotoniczny.Jeszcze raz dziękuję @MasatoNakagawa za wskazanie mi tego interesującego przykładu i dostrojenie mnie do ostatnich badań nad przyczynowością.
źródło
Sprawdź badania GWAS dotyczące interakcji gen-środowisko. Analiza statystyczna, którą wykonują w zasadzie, jest tym, co opisałeś. Pytanie, czy twoje środowisko ma znaczenie dla fenotypu (cecha obserwowalna)? Jedna szkoła myślenia na ogół ignoruje wszystkie informacje środowiskowe i mówi, że twój układ genetyczny opisuje twój fenotyp. Jest to całkowicie sprzeczne z badaniami ekologicznymi, w których historia jest najważniejsza - środowisko ignoruje geny. Ponieważ obie strony próbują zrozumieć ten sam problem, podjęto ostatnio próby połączenia tych dwóch.
Powiedzmy, że studiujemy BMI. Pierwszych kilka głównych składników macierzy genetycznej bierzemy za stałe efekty wywołane przez geny. Edukację dopasowujemy do indeksu 1 dla osób dobrze wykształconych i 0 dla osób słabo wykształconych jako stały efekt. Istnieje dość silna korelacja między wskaźnikiem wykształcenia a zamożnością społeczności, z której pochodzi ta osoba. Można by argumentować, że społeczności o niskich dochodach częściej mają więcej restauracji typu fast food. Fast food działa jak wyzwalacz otyłości. „Wyzwala coś w twoim układzie genetycznym, co zachęca do gromadzenia się tłuszczu”, więc pojawi się w składzie genetycznym w jakiejś formie.
Symulacja takich danych nie stanowi problemu. Sprawdzać
http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml
To pozwala symulować dane GWAS (traktuj to jako jednostki genetyczne) odpowiedzialne za objaw. Jeśli nie zostanie podane inaczej, wygeneruje 1000 z objawem i 1000 kontroli. Normą w tych symulacjach, których używam, jest 9990 SNP nie wywołujących objawów i 10 SNP. Przeczytaj instrukcje dotyczące ich symulacji.
Wynik będzie wynosił 1, jeśli osoba jest otyła i 0, jeśli nie jest. Symuluj czynniki edukacyjne (ukończone studia / nieukończone studia) w oparciu o rozsądną korelację z poziomem otyłości.
Mam nadzieję że to pomoże!!!
źródło
Poleciłbym przeczytać Freakonomics i znaleźć dokumenty, na których opiera się ich praca, i sprawdzić, czy możesz pobrać te dane. Mają naprawdę interesującą pracę nad naprawdę interesującymi zbiorami danych, aw niektórych przypadkach wymyślają bardzo sprytne sposoby testowania hipotez pomimo ograniczeń danych.
źródło