Bawię się zestawem danych dotyczących raka piersi i stworzyłem wykres rozproszenia wszystkich atrybutów, aby dowiedzieć się, które z nich mają największy wpływ na przewidywanie klasy malignant
(niebieskiej) benign
(czerwonej).
Rozumiem, że wiersz reprezentuje oś x, a kolumna reprezentuje oś y, ale nie widzę, jakie spostrzeżenia mogę poczynić na temat danych lub atrybutów z tego wykresu rozrzutu.
Szukam pomocy w interpretacji / obserwacji na temat danych z tego wykresu rozrzutu lub czy powinienem użyć innej wizualizacji do wizualizacji tych danych.
Użyłem kodu R.
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)
Odpowiedzi:
Nie jestem pewien, czy to ci pomoże, ale dla podstawowej EDA bardzo podoba mi się ten
tabplot
pakiet. Dobrze rozumie, jakie potencjalne korelacje mogą występować w danych.źródło
Istnieje wiele problemów, które utrudniają lub uniemożliwiają wydobycie użytecznych informacji z macierzy wykresów rozrzutu.
Masz zbyt wiele zmiennych wyświetlanych razem. Kiedy masz wiele zmiennych w macierzy wykresów rozrzutu, każdy wykres staje się zbyt mały, aby był użyteczny. Należy zauważyć, że wiele wykresów jest powielonych, co marnuje miejsce. Ponadto, chociaż chcesz zobaczyć każdą kombinację, nie musisz kreślić ich wszystkich razem. Zauważ, że możesz rozbić matrycę wykresu rozrzutu na mniejsze bloki po cztery lub pięć (liczba, którą można wizualizować). Musisz tylko utworzyć wiele wykresów, po jednym dla każdego bloku.
Ponieważ masz wiele danych w dyskretnych punktach w przestrzeni , ostatecznie układają się jeden na drugim. Dlatego nie możesz zobaczyć, ile punktów znajduje się w każdej lokalizacji. Istnieje kilka sztuczek, które pomogą ci sobie z tym poradzić.
Korzystając z tych strategii, oto przykładowy kod R i wykonane wykresy:
źródło
Trudno jest wyobrazić sobie więcej niż 3-4 wymiary na jednej działce. Jedną z opcji byłoby użycie analizy głównych składników (PCA) do skompresowania danych, a następnie wizualizacji ich w głównych wymiarach. Istnieje kilka różnych pakietów w R (jak również
prcomp
funkcja podstawowa ), które ułatwiają składnię ( patrz CRAN ); Interpretacja wykresów, ładunków, to inna historia, ale myślę, że łatwiej niż 10-rzędowa macierz rozrzutu wykresów porządkowych.źródło