Wytyczne dotyczące odkrywania nowej wiedzy w danych

Istnieje cała dziedzina eksploracyjnych analiz danych (EDA) i doskonała książka na ten temat zatytułowana Exploratory Data Analysis , autorstwa Johna W. Tukeya.

Podoba mi się, że używasz wykresów - istnieje wiele innych wykresów, które mogą być przydatne, w zależności od twoich danych - ile zmiennych? Jakiego rodzaju są zmienne (kategoryczne? Numeryczne? Ciągłe? Liczy? Zwykłe?)

Jednym z wykresów, który jest często przydatny dla danych z wieloma zmiennymi, jest macierz wykresów rozrzutu.

Możesz szukać różnych typów wartości odstających, które często są interesującymi punktami.

Ale nie sądzę, aby cały ten proces można było uczynić naprawdę metodycznym i naukowym - po to, co przychodzi PRZED wprowadzeniem metodycznego i naukowego podejścia. Myślę, że kluczowym aspektem jest żartobliwość.

Peter Flom
źródło

(+1) Czy możesz podać link do wspomnianej książki?

steffen

EDA z Podręcznika inżynierii i statystyki itl.nist.gov/div898/handbook/eda/eda.htm .

Selden,

@Peter Flom 13 zmienne są tworzone przez porównanie dwóch zestawów danych wyjściowych wytworzonych przez program działający na dwóch zestawach danych wejściowych. Program działa okresowo. Zmienne to: porządkowa, kategoria, kategoria, kategoria, kategoria, liczba, liczba, liczba, liczba, liczba, liczba, liczba i liczba. Nazwy to id, machineA, inputA, machineB, inputB, new, same, missing, newP, missingP, lengthA, lengthB, scoreA, scoreB. Ale decyzja o porównaniu tylko najnowszych wyników jest również moim dobrym / złym pomysłem.

Selden,

Książka faktycznie nazywa się Exploratory Data Analysis (nie EDA), autor: John W. Tukey (moja pamięć mnie oszukała, ponieważ okładka mojego wydania jest oznaczona jako EDA) Link: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…

Peter Flom

@selden Cóż, ID prawdopodobnie nie jest użyteczną zmienną. Pomiędzy dwiema zmiennymi kategorycznymi można spojrzeć na wykresy mozaikowe; między kategorycznymi i liczbowymi równoległymi wykresami pudełkowymi mogą być dobre.

Peter Flom

Jeśli masz chronologiczne dane z serii czasowej, to są „znane”, a „nieznane” czekają na odkrycie. Na przykład, jeśli masz sekwencję punktów danych dla 10 okresów, takich jak 1,9,1,9,1,5,1,9,1,9, to na podstawie tej próbki można racjonalnie oczekiwać 1,9,1,9 , ... powstać w przyszłości. Analiza danych ujawnia, że w okresie 6 występuje „nietypowy” odczyt, mimo że mieści się on w granicach +3 sigma, co sugeruje, że DGF tego nie utrzymał. Odmaskowanie wartości początkowej / wartości odstającej pozwala nam ujawniać rzeczy na temat danych. Zauważamy również, że Średnia wartość nie jest wartością oczekiwaną. Pomysł ten łatwo obejmuje wykrywanie średnich przesunięć i / lub lokalnych trendów czasowych, które mogły być nieznane przed analizą danych (generowanie hipotez). Jest całkiem możliwe, że kolejne 10 odczytów to również 1,9,1,9, 1,5,1,9,1,9 sugerując, że „5” niekoniecznie jest niekorzystne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. 9 sugeruje, że „5” niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. 9 sugeruje, że „5” niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. struktura równoczesna i opóźniona) wokół każdego święta, odzwierciedlając spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. struktura równoczesna i opóźniona) wokół każdego święta, odzwierciedlając spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność.

IrishStat
źródło

Wytyczne dotyczące odkrywania nowej wiedzy w danych

Odpowiedzi: