Wytyczne dotyczące odkrywania nowej wiedzy w danych

9

Knuję coś, aby wskazać na siebie lub kogoś innego. Zazwyczaj pytanie rozpoczyna ten proces i często osoba pytająca ma nadzieję na konkretną odpowiedź.

Jak mogę dowiedzieć się ciekawych rzeczy na temat danych w mniej stronniczy sposób?

W tej chwili z grubsza stosuję tę metodę:

  1. Statystyki podsumowujące.
  2. Wykres paskowy.
  3. Wykres punktowy.
  4. Może powtórz z interesującym podzbiorem danych.

Ale to nie wydaje się wystarczająco metodyczne ani naukowe.

Czy są jakieś wytyczne lub procedury, które należy przestrzegać, które ujawniają informacje o danych, o które nie chciałbym pytać? Skąd mam wiedzieć, czy wykonałem odpowiednią analizę?

Selden
źródło

Odpowiedzi:

6

Istnieje cała dziedzina eksploracyjnych analiz danych (EDA) i doskonała książka na ten temat zatytułowana Exploratory Data Analysis , autorstwa Johna W. Tukeya.

Podoba mi się, że używasz wykresów - istnieje wiele innych wykresów, które mogą być przydatne, w zależności od twoich danych - ile zmiennych? Jakiego rodzaju są zmienne (kategoryczne? Numeryczne? Ciągłe? Liczy? Zwykłe?)

Jednym z wykresów, który jest często przydatny dla danych z wieloma zmiennymi, jest macierz wykresów rozrzutu.

Możesz szukać różnych typów wartości odstających, które często są interesującymi punktami.

Ale nie sądzę, aby cały ten proces można było uczynić naprawdę metodycznym i naukowym - po to, co przychodzi PRZED wprowadzeniem metodycznego i naukowego podejścia. Myślę, że kluczowym aspektem jest żartobliwość.

Peter Flom
źródło
(+1) Czy możesz podać link do wspomnianej książki?
steffen
EDA z Podręcznika inżynierii i statystyki itl.nist.gov/div898/handbook/eda/eda.htm .
Selden,
@Peter Flom 13 zmienne są tworzone przez porównanie dwóch zestawów danych wyjściowych wytworzonych przez program działający na dwóch zestawach danych wejściowych. Program działa okresowo. Zmienne to: porządkowa, kategoria, kategoria, kategoria, kategoria, liczba, liczba, liczba, liczba, liczba, liczba, liczba i liczba. Nazwy to id, machineA, inputA, machineB, inputB, new, same, missing, newP, missingP, lengthA, lengthB, scoreA, scoreB. Ale decyzja o porównaniu tylko najnowszych wyników jest również moim dobrym / złym pomysłem.
Selden,
Książka faktycznie nazywa się Exploratory Data Analysis (nie EDA), autor: John W. Tukey (moja pamięć mnie oszukała, ponieważ okładka mojego wydania jest oznaczona jako EDA) Link: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Peter Flom
@selden Cóż, ID prawdopodobnie nie jest użyteczną zmienną. Pomiędzy dwiema zmiennymi kategorycznymi można spojrzeć na wykresy mozaikowe; między kategorycznymi i liczbowymi równoległymi wykresami pudełkowymi mogą być dobre.
Peter Flom
1

Jeśli masz chronologiczne dane z serii czasowej, to są „znane”, a „nieznane” czekają na odkrycie. Na przykład, jeśli masz sekwencję punktów danych dla 10 okresów, takich jak 1,9,1,9,1,5,1,9,1,9, to na podstawie tej próbki można racjonalnie oczekiwać 1,9,1,9 , ... powstać w przyszłości. Analiza danych ujawnia, że ​​w okresie 6 występuje „nietypowy” odczyt, mimo że mieści się on w granicach +3 sigma, co sugeruje, że DGF tego nie utrzymał. Odmaskowanie wartości początkowej / wartości odstającej pozwala nam ujawniać rzeczy na temat danych. Zauważamy również, że Średnia wartość nie jest wartością oczekiwaną. Pomysł ten łatwo obejmuje wykrywanie średnich przesunięć i / lub lokalnych trendów czasowych, które mogły być nieznane przed analizą danych (generowanie hipotez). Jest całkiem możliwe, że kolejne 10 odczytów to również 1,9,1,9, 1,5,1,9,1,9 sugerując, że „5” niekoniecznie jest niekorzystne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. 9 sugeruje, że „5” niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. 9 sugeruje, że „5” niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. struktura równoczesna i opóźniona) wokół każdego święta, odzwierciedlając spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. struktura równoczesna i opóźniona) wokół każdego święta, odzwierciedlając spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność.

IrishStat
źródło
0

Datamining można podzielić na dwie kategorie. Jeśli jesteś zainteresowany mierzeniem wpływu zbioru danych / zmiennych na określoną zmienną, byłoby to uważane za uczenie nadzorowane. W celu głębokiego i eksploracyjnego uczenia się bez celu przechodzisz naukę bez nadzoru.

Grafowanie i analiza statystyczna danych (zrozumienie rozkładów i uzyskanie intuicji) to pierwsze kroki.

Moka
źródło