Jakie są dobre zestawy danych do zilustrowania poszczególnych aspektów analizy statystycznej?

16

Zdaję sobie sprawę, że jest to subiektywne, ale pomyślałem, że miło byłoby porozmawiać o naszych ulubionych zestawach danych i tym, co naszym zdaniem czyni je interesującymi. Istnieje wiele danych, a co z wszystkimi interfejsami API (np. Datamob ) wraz z klasycznymi zestawami danych (np. Dane R ), myślę, że może to mieć bardzo interesujące odpowiedzi.

Na przykład zawsze lubiłem zestawy danych, takie jak zestaw danych „Boston Housing” (pomimo niefortunnych implikacji) i „mtcars” ze względu na ich wszechstronność. Z pedagogicznego punktu widzenia można pokazać zalety szerokiej gamy technik statystycznych, które je wykorzystują; irysowy zbiór danych Andersona / Fishera zawsze będzie miał miejsce w moim sercu.

Myśli?

DA
źródło
2
Ten jest używany w mojej rozprawie, ponieważ
dokona
3
Witamy w Cross Validated! Zostało to zaprojektowane jako strona pytań i odpowiedzi na pytania z prawdziwymi odpowiedziami, a nie forum dyskusyjne. W związku z tym nie sądzę, aby tego rodzaju pytanie chcieliśmy na tej stronie. Zobacz FAQ .
Michael McGowan
4
Wiem, że ma on charakter pytań i odpowiedzi, ale z pytaniami typu „Jaka jest twoja ulubiona kreskówka z statystyki?” wysoko oceniany, uznałem, że nie byłoby to strasznie nieodpowiednie. Zwłaszcza pedagogicznie, jeśli ktoś próbuje dowiedzieć się o analizie danych i technikach eksploracyjnych, przydatne może być uzyskanie informacji zwrotnej na temat publicznych zestawów danych, które oferują bogatą strukturę i mają za sobą wiele historii i badań.
DA
4
Jestem skłonny pozwolić społeczności decydować, czy należy to zamknąć (ponieważ nie jest to konstruktywne), czy nie, chociaż dodam, że dokładne i kłótliwe odpowiedzi mogą służyć jako wsparcie dla przyszłych pytań dotyczących poszczególnych aspektów analizy danych. W międzyczasie przekształcam to w CW, ponieważ oczywiście nie ma jednej najlepszej odpowiedzi.
chl
2
To pytanie i ich odpowiedzi są dla mnie bardzo przydatne. Proszę nie usuwać
dsign

Odpowiedzi:

12

Badanie niskiej masy urodzeniowej

Jest to jeden z zestawów danych w podręczniku Hosmer and Lemeshow o Applied Logistic Regression (2000, Wiley, wyd. 2). Celem tego prospektywnego badania była identyfikacja czynników ryzyka związanych z porodem dziecka o niskiej masie urodzeniowej (ważącego mniej niż 2500 gramów). Zebrano dane dotyczące 189 kobiet, z których 59 miało dzieci o niskiej masie urodzeniowej, a 130 z nich miało dzieci o normalnej masie urodzeniowej. Cztery zmienne, które uznano za istotne, to wiek, waga badanej osoby w jej ostatnim okresie menstruacyjnym, rasa oraz liczba wizyt lekarskich w pierwszym trymestrze ciąży.

Jest dostępny w R as data(birthwt, package="MASS")lub w Stata with webuse lbw. Tutaj pojawia się wersja tekstowa: lowbwt.dat ( opis ). Warto zauważyć, że istnieje kilka wersji tego zestawu danych, ponieważ został on rozszerzony na badanie kliniczne (1-1 lub 1-3, dopasowane do wieku), jak ilustrują Hosmer i Lemeshow w rozdziale 7 ALR.

Uczyłem kursów wprowadzających na podstawie tego zestawu danych z następujących powodów:

  • Jest to interesujące z historycznego i epidemiologicznego punktu widzenia (dane zebrano w 1986 r.); nie jest wymagane wcześniejsze doświadczenie w medycynie lub statystykach, aby zrozumieć główne idee i jakie pytania można zadać z tego badania.
  • χ2)
  • Pozwala omawiać różne perspektywy modelowania (podejścia wyjaśniające lub predykcyjne) oraz implikacje schematu próbkowania przy opracowywaniu modeli (stratyfikacja / dopasowane przypadki).

Inne kwestie, na które można podkreślić, w zależności od odbiorców i poziomu wiedzy specjalistycznej w zakresie oprogramowania statystycznego lub statystyk w ogóle.

  1. Jeśli chodzi o zestaw danych dostępny w R, predyktory jakościowe są oceniane jako liczby całkowite (np. Dla pochodzenia etnicznego mamy „1” = biały, „2” = czarny, „3” = inny), pomimo faktu, że naturalne uporządkowanie niektórych predyktorów (np. liczba wcześniejszych przedwczesnych prac lub liczba wizyt lekarskich) lub użycie wyraźnych etykiet (zawsze dobrym pomysłem jest użycie „tak” / „nie” zamiast 1/0 dla zmiennych binarnych, nawet jeśli to nie robi ” zmienić cokolwiek w matrycy projektowej!) są po prostu nieobecne. W związku z tym łatwo jest omówić, jakie problemy można podnieść, ignorując poziomy lub jednostki miary w analizie danych.

  2. Zmienne typów mieszanych są interesujące, jeśli chodzi o analizę eksploracyjną i omówienie, jakie rodzaje grafik są odpowiednie do podsumowania relacji jednowymiarowych, dwuwymiarowych lub trójskładnikowych. Podobnie, tworzenie ładnych tabel podsumowań i bardziej ogólnie raportowanie, jest kolejnym interesującym aspektem tego zestawu danych (ale Hmisc::summary.formulakomenda sprawia, że ​​jest to tak łatwe w R).

  3. Hosmer i Lemeshow poinformowali, że rzeczywiste dane zostały zmodyfikowane w celu ochrony poufności podmiotu (s. 25). Interesujące może być omówienie kwestii poufności danych, tak jak miało to miejsce w jednym z naszych wcześniejszych klubów Journal Club , ale zobacz jego zapis . (Muszę przyznać, że nigdy nie wchodzę w to w szczegóły).

  4. Łatwo jest wprowadzić pewne brakujące wartości lub błędne wartości (które są częstymi problemami w prawdziwym życiu statystysty), które prowadzą do dyskusji (a) ich wykrycia za pomocą słownika ( Hmisc::describelub Staty codebook) lub grafiki eksploracyjnej (zawsze najpierw wykreśl swoje dane!) oraz (b) możliwe środki zaradcze (przypisanie danych, usunięcie listowe lub parowanie miara powiązań itp.).

chl
źródło
+1 Dziękujemy za podanie przykładowej odpowiedzi, która pokazuje, że ten wątek może być przydatny i zapewnia standardową ekspozycję, do której inne odpowiedzi mogą (i powinny) dążyć.
whuber
To jest fantastyczne i dokładnie tego szukałem, zadając pytanie. Dziękuję ci za ceniący wgląd.
DA
5

Oczywiście zestawy danych Anscombe 4 są bardzo dobre do nauczania - wyglądają zupełnie inaczej, ale mają identyczne proste właściwości statystyczne.

Sugeruję również zestawy danych o pucharach KDD http://www.kdd.org/kddcup/, ponieważ zostały one dobrze zbadane i istnieje wiele rozwiązań, dzięki czemu uczniowie mogą porównać swoje wyniki i zobaczyć, jak się oceniają.

W trakcie mojego kursu eksploracji danych przeprowadziłem konkurs na zestaw danych Microarray, z którego mogą korzystać profesorowie http://www.kdnuggets.com/data_mining_course/

Gregory Piatetsky
źródło
W przypadku innych zestawów danych, które zostały zaprojektowane do celów pedagogicznych w podobny sposób jak Kwartet Anscombe, zobacz to pytanie .
Silverfish,
3

Wiele moich kursów analizy statystycznej w Cal Poly wykorzystywałem zestaw danych „Iris”, który już w R. Ma zmienne kategoryczne i zmienne wysoce skorelowane.

Kurtis Voris
źródło
Czy mógłbyś rozwinąć swoje ostatnie punkty: W jaki sposób ten zestaw danych pomaga w nauczaniu statystyki? (AFAICT, zbiór danych tęczówki ma tylko jedną zmienną kategorialną, a mianowicie klasę tęczówki).
chl.
Oto wątek dotyczący wyłącznie wykorzystania zestawu danych Iris w nauczaniu .
Silverfish,
3

Zestaw danych Titanica używany przez Harrella w „Strategiach modelowania regresji”. Używam uproszczonej wersji jego analizy, tłumacząc regresję logistyczną, wyjaśniając przeżycie za pomocą płci, klasy i wieku.

Loyn zbiór danych omówione w „Experimental Projektowanie i analiza danych dla biologów” Gerry Quinn i Mickiem Keough zawiera ładne problemy wymagające transformację dla wielokrotnej regresji liniowej.

Luis Apiolaza
źródło