Knuję coś, aby wskazać na siebie lub kogoś innego. Zazwyczaj pytanie rozpoczyna ten proces i często osoba pytająca ma nadzieję na konkretną odpowiedź.
Jak mogę dowiedzieć się ciekawych rzeczy na temat danych w mniej stronniczy sposób?
W tej chwili z grubsza stosuję tę metodę:
- Statystyki podsumowujące.
- Wykres paskowy.
- Wykres punktowy.
- Może powtórz z interesującym podzbiorem danych.
Ale to nie wydaje się wystarczająco metodyczne ani naukowe.
Czy są jakieś wytyczne lub procedury, które należy przestrzegać, które ujawniają informacje o danych, o które nie chciałbym pytać? Skąd mam wiedzieć, czy wykonałem odpowiednią analizę?
Jeśli masz chronologiczne dane z serii czasowej, to są „znane”, a „nieznane” czekają na odkrycie. Na przykład, jeśli masz sekwencję punktów danych dla 10 okresów, takich jak 1,9,1,9,1,5,1,9,1,9, to na podstawie tej próbki można racjonalnie oczekiwać 1,9,1,9 , ... powstać w przyszłości. Analiza danych ujawnia, że w okresie 6 występuje „nietypowy” odczyt, mimo że mieści się on w granicach +3 sigma, co sugeruje, że DGF tego nie utrzymał. Odmaskowanie wartości początkowej / wartości odstającej pozwala nam ujawniać rzeczy na temat danych. Zauważamy również, że Średnia wartość nie jest wartością oczekiwaną. Pomysł ten łatwo obejmuje wykrywanie średnich przesunięć i / lub lokalnych trendów czasowych, które mogły być nieznane przed analizą danych (generowanie hipotez). Jest całkiem możliwe, że kolejne 10 odczytów to również 1,9,1,9, 1,5,1,9,1,9 sugerując, że „5” niekoniecznie jest niekorzystne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. 9 sugeruje, że „5” niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. 9 sugeruje, że „5” niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. niekoniecznie jest niestosowne. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Jeśli zaobserwujemy proces błędu z odpowiedniego modelu, który wykazuje możliwą do udowodnienia niestałą wariancję, możemy odkryć jeden z następujących stanów natury: 1) parametry mogły ulec zmianie w określonym momencie; 2. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. Może zaistnieć potrzeba analizy ważonej (GLS); 3. Może zaistnieć potrzeba przekształcenia danych za pomocą transformacji mocy; 4. Może zaistnieć potrzeba rzeczywistego modelowania wariancji błędów. Jeśli masz codzienne dane, dobra analiza może ujawnić, że wokół każdego święta istnieje okno reakcji (potencjalna, aktualna i opóźniona) odzwierciedlające spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. struktura równoczesna i opóźniona) wokół każdego święta, odzwierciedlając spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność. struktura równoczesna i opóźniona) wokół każdego święta, odzwierciedlając spójne / przewidywalne zachowanie. Możesz także być w stanie ujawnić, że niektóre dni miesiąca mają znaczący wpływ lub że piątki przed poniedziałkowymi wakacjami mają wyjątkową aktywność.
źródło
Datamining można podzielić na dwie kategorie. Jeśli jesteś zainteresowany mierzeniem wpływu zbioru danych / zmiennych na określoną zmienną, byłoby to uważane za uczenie nadzorowane. W celu głębokiego i eksploracyjnego uczenia się bez celu przechodzisz naukę bez nadzoru.
Grafowanie i analiza statystyczna danych (zrozumienie rozkładów i uzyskanie intuicji) to pierwsze kroki.
źródło