Jakie aspekty zestawu danych „Iris” sprawiają, że jest tak skuteczny jak zestaw danych przykładowych / dydaktycznych / testowych

28

Zestaw danych „Iris” jest prawdopodobnie znany tutaj większości ludzi - jest to jeden z kanonicznych zestawów danych testowych i przykładowy zestaw danych dla wszystkiego, od wizualizacji danych do uczenia maszynowego. Na przykład wszyscy w tym pytaniu ostatecznie wykorzystali go do dyskusji na temat wykresów rozrzutu oddzielonych przez leczenie.

Co sprawia, że zestaw danych Iris jest tak przydatny? Tylko że był tam pierwszy? Jeśli ktoś próbował stworzyć przydatny przykład / zestaw danych do testowania, jakie lekcje można z tego wyciągnąć?

Fomite
źródło
13
Mały, ale nie trywialny. Proste, ale wymagające. Prawdziwe dane. Reputacja Fishera, choć to nie jego dane. Tradycja. Bezwładność. Ciągłość. Możesz znaleźć zdjęcia kwiatów, aby to przeliterować.
Nick Cox,
A teraz działa jak w zegarku.
Michael M
Powiedziałbym, że @NickCox ma rację.
Marc Claesen,
@NickCox Chcesz rozwinąć tę kwestię nieco jako odpowiedź?
Fomite,
6
Zestaw danych „tęczówki” może być wykorzystywany do analizy dyskryminacyjnej, a także do bezobsługowej klasyfikacji (klastrowanie oparte na modelach lub bez modeli) w celach ilustracyjnych. To pytanie zasługuje na odniesienie do Co to są dobre zbiory danych w celu zilustrowania poszczególnych aspektów analizy statystycznej?
chl

Odpowiedzi:

40

Iris zestaw danych jest zasłużenie powszechnie stosowany w całej nauki statystycznej, szczególnie dla ilustrujące różne problemy z grafiką statystycznych, statystyka wielowymiarowa i uczenia maszynowego.

  • Zawierający 150 obserwacji jest niewielki, ale nie trywialny.

  • Zadanie polegające na rozróżnieniu trzech gatunków tęczówki od pomiarów ich płatków i płatków jest proste, ale trudne.

  • Dane są danymi rzeczywistymi, ale podobno dobrej jakości. Zasadniczo i w praktyce zestawy danych testowych mogą być syntetyczne, co może być konieczne lub przydatne w celu ustalenia. Niemniej jednak niewiele osób sprzeciwia się prawdziwym danym.

  • Dane zostały wykorzystane przez słynnego brytyjskiego statystykę Ronalda Fishera w 1936 r. (Później został rycerzem i został sir Ronaldem). Przynajmniej niektórym nauczycielom podoba się pomysł zbioru danych z linkiem do kogoś tak dobrze znanego w tej dziedzinie. Dane zostały pierwotnie opublikowane przez statystycznie nastawionego botanika Edgara S. Andersona, ale to wcześniejsze pochodzenie nie umniejsza związku.

  • Używanie kilku znanych zestawów danych jest jedną z przekazywanych przez nas tradycji, takich jak mówienie każdemu nowemu pokoleniu, że Student pracował dla Guinnessa lub że wielu znanych statystów się ze sobą nie zgadzało. Może to zabrzmieć jak bezwładność, ale przy porównywaniu metod starych i nowych oraz przy ocenie dowolnej metody często uważa się za pomocne wypróbowanie ich na znanych zestawach danych, utrzymując w ten sposób ciągłość w naszym sposobie oceny metod.

  • Wreszcie, zestaw danych Iris można przyjemnie połączyć ze zdjęciami kwiatów, o których mowa, na przykład z przydatnego wpisu Wikipedii w zestawie danych .

Uwaga. Postaw na poprawność biologiczną, powołując się ostrożnie na dane rośliny. Iris setosa , Iris versicolor i Iris virginica to trzy gatunki (nie odmiany, jak w niektórych rachunkach statystycznych); ich dwumianale powinny być zapisane kursywą, tak jak tutaj; i Iris jako nazwa rodzaju i inne nazwy wskazujące na poszczególne gatunki powinny zaczynać się odpowiednio dużymi i małymi literami.

Nick Cox
źródło
3
(+1) Dziękujemy za miłe rozwinięcie komentarza w odpowiedź.
kardynał
5
Dałbym dodatkowe +1, gdybym mógł za zasadnicze stanowisko dla poprawności biologicznej.
Fomite,
6

Zbiór danych jest wystarczająco duży i interesujący, aby nie był trywialny, ale wystarczająco mały, aby „zmieścić się w kieszeni” i nie spowalniał eksperymentów z nim.

Myślę, że kluczowym aspektem jest to, że uczy również o nadmiernym dopasowaniu. Nie ma wystarczającej liczby kolumn, aby uzyskać doskonały wynik: widzimy to natychmiast, gdy patrzymy na wykresy rozrzutu, a one nakładają się i wpadają na siebie. Tak więc każde podejście do uczenia maszynowego, które uzyska doskonały wynik, można uznać za podejrzane.

Darren Cook
źródło