Jak tytuł mówi, czy ktoś wie o dobrej, aktualnej książce, która ogólnie obejmuje wstępne przetwarzanie danych, a szczególnie techniki wykrywania wartości odstających?
Książka nie musi skupiać się wyłącznie na tym, ale powinna wyczerpująco omawiać wyżej wymienione tematy - nie byłbym zadowolony z czegoś, co stanowi punkt wyjścia i cytuje listę artykułów, wyjaśnienia różnych technik muszą pojawić się w sama książka.
Preferowane, ale niekonieczne techniki radzenia sobie z brakującymi danymi
Odpowiedzi:
Mimo że jest specyficzny dla Staty, znalazłem książkę Scotta Longa, „Przepływ pracy analizy danych za pomocą Staty” , nieocenioną w dziedzinie zarządzania danymi i ich przygotowania. Autor udziela wielu przydatnych porad dotyczących dobrych praktyk w zarządzaniu danymi, takich jak czyszczenie i archiwizacja danych, sprawdzanie wartości odstających i radzenie sobie z brakującymi danymi.
źródło
W przypadku SAS istnieją techniki czyszczenia danych Rona Cody'ego przy użyciu oprogramowania SAS . W SAS-L jest powiedzenie: „Nigdy nie możesz się pomylić z książką Rona Cody'ego”
źródło
Jeśli masz podstawy (identyfikowanie wartości odstających, brakujące wartości, ważenie, kodowanie) w zależności od tematu, w zwykłej literaturze akademickiej można znaleźć znacznie więcej. Na przykład w badaniach ankietowych (temat, w którym wiele rzeczy może pójść źle i jest podatnych na wiele źródeł stronniczości), można znaleźć wiele dobrych artykułów.
Przygotowując się do regularnej regresji przekrojowej, sprawy mogą być mniej złożone. Problem może polegać na przykład na usunięciu zbyt wielu „wartości odstających”, a tym samym na sztucznym dopasowaniu modelu.
Polecam więc oprócz nauki dobrych technik, pamiętaj także o zdrowym rozsądku. Upewnij się, że stosujesz techniki prawidłowo, a nie na ślepo. Co do dyskusji na temat oprogramowania w innych odpowiedziach. Myślę, że SPSS nie jest zły do przygotowania danych (słyszałem również dobre rzeczy o SAS) w zależności od rozmiaru zestawu danych. Rozwijane menu są bardzo intuicyjne.
Ale jako bezpośrednia odpowiedź na twoje pytanie, literatura akademicka może, ale nie musi, być bardzo dobrym źródłem do przygotowania danych w zależności od tematu i analizy.
źródło