Co to jest praktycznie dobry proces analizy danych?

15

Chciałbym poznać lub mieć referencje na temat procesu analizy, który większość analityków danych statystycznych przechodzi przez każdy projekt analizy danych.

Jeśli utworzę „listę”, aby ukończyć projekt analizy danych, analityk musi:

  1. najpierw zbieraj wymagania dla projektu,
  2. wcześniej zaplanować / zaprojektować analizę danych w oparciu o te wymagania
  3. faktycznie wstępnie przetwarzają dane,
  4. przeprowadzanie analizy danych i
  5. napisanie raportu na podstawie wyników jego analizy.

W przypadku tego pytania interesują mnie bardziej szczegółowe informacje na temat kroku 2. Ale rozumiem, że nie jest to praktycznie jasne, ponieważ analityk może zmienić swój plan lub projekt zgodnie z wynikami analizy danych. Czy jest jakieś odniesienie na ten temat?

Tae-Sung Shin
źródło

Odpowiedzi:

17

Moim ulubionym „planem” lub „listą” jest dokument Scotta Emersona „ Organizowanie podejścia do analizy danych” .

Uwaga: dwie ostatnie strony znajdują się pod nagłówkiem „Wymagania ogólne dotyczące egzaminu doktorskiego”, ale podane tam wskazówki dotyczą prac nad dowolnym problemem analitycznym.


źródło
Uwielbiam każdą część dokumentu. Dzięki za cenne referencje.
Tae-Sung Shin
5

Uważam, że przepływ pracy z analizą danych przy użyciu Staty jest dobrą książką, szczególnie (ale nie tylko) jako użytkownik Staty. Znalazłem wiele, z którymi się nie zgadzam, ale nawet to pomogło wyjaśnić, dlaczego robię pewne rzeczy w określony sposób.

Dimitriy V. Masterov
źródło
4
+1, ale zastrzeżenie : ta książka jest cenna tylko, jeśli jesteś użytkownikiem Stata. Nie używam Staty (w rzeczywistości nigdy nie mam). Z drugiej strony lubię Longa, więc sprawdziłem to w bibliotece. Jestem pewien, że jest tam wiele dobrych informacji dla wszystkich, ale jest tak ściśle spleciona z użyciem Staty, że niemożliwe jest wyodrębnienie ogólnych informacji o domenie.
gung - Przywróć Monikę
2

CRISP-DM , wymyślony przez firmę SPSS (obecnie należy do IBM) jest akronimem dla procesu eksploracji danych, który jest taki sam jak dla „analizy danych”. SAS ma podobny proces o nazwie SEMMA .

Galit Shmueli
źródło