Zdaję sobie sprawę, że jest to subiektywne, ale pomyślałem, że miło byłoby porozmawiać o naszych ulubionych zestawach danych i tym, co naszym zdaniem czyni je interesującymi. Istnieje wiele danych, a co z wszystkimi interfejsami API (np. Datamob ) wraz z klasycznymi zestawami danych (np. Dane R ), myślę, że może to mieć bardzo interesujące odpowiedzi.
Na przykład zawsze lubiłem zestawy danych, takie jak zestaw danych „Boston Housing” (pomimo niefortunnych implikacji) i „mtcars” ze względu na ich wszechstronność. Z pedagogicznego punktu widzenia można pokazać zalety szerokiej gamy technik statystycznych, które je wykorzystują; irysowy zbiór danych Andersona / Fishera zawsze będzie miał miejsce w moim sercu.
Myśli?
Odpowiedzi:
Badanie niskiej masy urodzeniowej
Jest to jeden z zestawów danych w podręczniku Hosmer and Lemeshow o Applied Logistic Regression (2000, Wiley, wyd. 2). Celem tego prospektywnego badania była identyfikacja czynników ryzyka związanych z porodem dziecka o niskiej masie urodzeniowej (ważącego mniej niż 2500 gramów). Zebrano dane dotyczące 189 kobiet, z których 59 miało dzieci o niskiej masie urodzeniowej, a 130 z nich miało dzieci o normalnej masie urodzeniowej. Cztery zmienne, które uznano za istotne, to wiek, waga badanej osoby w jej ostatnim okresie menstruacyjnym, rasa oraz liczba wizyt lekarskich w pierwszym trymestrze ciąży.
Jest dostępny w R as
data(birthwt, package="MASS")
lub w Stata withwebuse lbw
. Tutaj pojawia się wersja tekstowa: lowbwt.dat ( opis ). Warto zauważyć, że istnieje kilka wersji tego zestawu danych, ponieważ został on rozszerzony na badanie kliniczne (1-1 lub 1-3, dopasowane do wieku), jak ilustrują Hosmer i Lemeshow w rozdziale 7 ALR.Uczyłem kursów wprowadzających na podstawie tego zestawu danych z następujących powodów:
Inne kwestie, na które można podkreślić, w zależności od odbiorców i poziomu wiedzy specjalistycznej w zakresie oprogramowania statystycznego lub statystyk w ogóle.
Jeśli chodzi o zestaw danych dostępny w R, predyktory jakościowe są oceniane jako liczby całkowite (np. Dla pochodzenia etnicznego mamy „1” = biały, „2” = czarny, „3” = inny), pomimo faktu, że naturalne uporządkowanie niektórych predyktorów (np. liczba wcześniejszych przedwczesnych prac lub liczba wizyt lekarskich) lub użycie wyraźnych etykiet (zawsze dobrym pomysłem jest użycie „tak” / „nie” zamiast 1/0 dla zmiennych binarnych, nawet jeśli to nie robi ” zmienić cokolwiek w matrycy projektowej!) są po prostu nieobecne. W związku z tym łatwo jest omówić, jakie problemy można podnieść, ignorując poziomy lub jednostki miary w analizie danych.
Zmienne typów mieszanych są interesujące, jeśli chodzi o analizę eksploracyjną i omówienie, jakie rodzaje grafik są odpowiednie do podsumowania relacji jednowymiarowych, dwuwymiarowych lub trójskładnikowych. Podobnie, tworzenie ładnych tabel podsumowań i bardziej ogólnie raportowanie, jest kolejnym interesującym aspektem tego zestawu danych (ale
Hmisc::summary.formula
komenda sprawia, że jest to tak łatwe w R).Hosmer i Lemeshow poinformowali, że rzeczywiste dane zostały zmodyfikowane w celu ochrony poufności podmiotu (s. 25). Interesujące może być omówienie kwestii poufności danych, tak jak miało to miejsce w jednym z naszych wcześniejszych klubów Journal Club , ale zobacz jego zapis . (Muszę przyznać, że nigdy nie wchodzę w to w szczegóły).
Łatwo jest wprowadzić pewne brakujące wartości lub błędne wartości (które są częstymi problemami w prawdziwym życiu statystysty), które prowadzą do dyskusji (a) ich wykrycia za pomocą słownika (
Hmisc::describe
lub Statycodebook
) lub grafiki eksploracyjnej (zawsze najpierw wykreśl swoje dane!) oraz (b) możliwe środki zaradcze (przypisanie danych, usunięcie listowe lub parowanie miara powiązań itp.).źródło
Oczywiście zestawy danych Anscombe 4 są bardzo dobre do nauczania - wyglądają zupełnie inaczej, ale mają identyczne proste właściwości statystyczne.
Sugeruję również zestawy danych o pucharach KDD http://www.kdd.org/kddcup/, ponieważ zostały one dobrze zbadane i istnieje wiele rozwiązań, dzięki czemu uczniowie mogą porównać swoje wyniki i zobaczyć, jak się oceniają.
W trakcie mojego kursu eksploracji danych przeprowadziłem konkurs na zestaw danych Microarray, z którego mogą korzystać profesorowie http://www.kdnuggets.com/data_mining_course/
źródło
Wiele moich kursów analizy statystycznej w Cal Poly wykorzystywałem zestaw danych „Iris”, który już w R. Ma zmienne kategoryczne i zmienne wysoce skorelowane.
źródło
Zestaw danych Titanica używany przez Harrella w „Strategiach modelowania regresji”. Używam uproszczonej wersji jego analizy, tłumacząc regresję logistyczną, wyjaśniając przeżycie za pomocą płci, klasy i wieku.
Loyn zbiór danych omówione w „Experimental Projektowanie i analiza danych dla biologów” Gerry Quinn i Mickiem Keough zawiera ładne problemy wymagające transformację dla wielokrotnej regresji liniowej.
źródło