Zadano mi takie pytanie, jak „Czy sprawdzałeś spójność w swojej codziennej pracy?” podczas rozmowy telefonicznej na stanowisko biostatystyczne. Nie wiem co odpowiedzieć. Wszelkie informacje są mile widziane.
źródło
Zadano mi takie pytanie, jak „Czy sprawdzałeś spójność w swojej codziennej pracy?” podczas rozmowy telefonicznej na stanowisko biostatystyczne. Nie wiem co odpowiedzieć. Wszelkie informacje są mile widziane.
Do listy chl, która koncentruje się na szczerych błędach przetwarzania danych, dodam kontrole pod kątem błędów subtelniejszych, aby rozwiązać następujące pytania i problemy (podane w nieokreślonej kolejności i na pewno niekompletne):
Zakładając integralność bazy danych, czy dane są rozsądne? Czy w przybliżeniu odpowiadają one oczekiwaniom lub konwencjonalnym modelom, czy też zaskoczyłyby kogoś znającego podobne dane?
Czy dane są wewnętrznie spójne? Na przykład, jeśli jedno pole ma być sumą dwóch innych, czy tak?
Jak kompletne są dane? Czy zostały określone w fazie planowania zbierania danych? Czy są jakieś dodatkowe dane, których nie planowano? Jeśli tak, dlaczego oni tam są?
Większość analiz pośrednio lub jawnie modeluje dane w oszczędny sposób i uwzględnia możliwość zmian w stosunku do ogólnego opisu. Każdy taki model sugeruje swój własny sposób identyfikowania wartości odstających - danych, które znacznie odbiegają od ogólnego opisu. Czy podjęto próby zidentyfikowania i zrozumienia wartości odstających na każdym etapie eksploracji i analizy?
W wielu przypadkach analityk może wprowadzić dodatkowe dane do analizy w celu kontroli jakości i wglądu. Na przykład wiele zbiorów danych w naukach przyrodniczych i społecznych, a także w biznesie, zawiera (przynajmniej domyślnie) informacje o lokalizacji: identyfikatory regionów spisu; nazwy krajów, stanów, powiatów; kody pocztowe klientów; i tak dalej. Nawet jeśli - być może szczególnie jeśli - korelacja przestrzenna nie jest elementem EDA ani modelowania, analityk może połączyć dane z reprezentacjami geograficznymi lokalizacji i zmapować je w celu znalezienia wzorców i wartości odstających.
Jednym z najbardziej podstępnych błędów, które mogą wkraść się do analizy, jest utrata danych. Podczas wyodrębniania pól, podsumowywania danych, formatowania zestawów danych itp., Jeśli jeden lub dwa elementy zostaną upuszczone z dużego zestawu danych, często nie będzie nic do oznaczenia. Ale czasami coś ważnego ginie, ku ogromnemu zawstydzeniu, jeśli kiedykolwiek zostanie odkryte. Proste kontrole - takie jak porównywanie przed i po zliczaniu i podsumowaniu danych - muszą odbywać się rutynowo, aby uchronić się przed takimi rzeczami.
Kolejny podstępny błąd związany jest z konwersją typów w obliczeniach cyfrowych. Na przykład ostatnio musiałem zbudować klucz (do dopasowania dwóch plików danych) z pola zmiennoprzecinkowego. Oprogramowanie (Stata) zaimportowało pole jako zmiennoprzecinkową precyzję w jednym pliku, ale z dowolnego powodu jako zmiennoprzecinkową podwójnej precyzji w innym pliku. Przez większość czasu wartości były zgodne, ale w kilku przypadkach z powodu różnych zaokrągleń nie były takie same. W wyniku tego niektóre dane zostały utracone. Złapałem to tylko dzięki zastosowaniu (6). Zasadniczo opłaca się sprawdzać spójność typów danych pól: ints vs. float, długości łańcuchów itp.
Jeśli arkusz kalkulacyjny jest kiedykolwiek używany na dowolnym etapie analizy, należy spodziewać się najgorszego. Problem polega na tym, że nawet przypadkowe naciśnięcie klawisza może niewidocznie uszkodzić dane. Gdy wyniki są krytyczne, opłaca się iść do przodu i do tyłu - eksportować do arkusza kalkulacyjnego, przeprowadzać analizy, importować z powrotem i systematycznie porównywać - aby upewnić się, że nic złego się nie wydarzy.
Za każdym razem, gdy baza danych jest aktualizowana, warto wstrzymywać i przeprowadzać systematyczne, pełne porównania ze starą, aby upewnić się, że nic nie zostało utracone, zmienione lub uszkodzone w procesie.
Na wyższym poziomie, za każdym razem, gdy przeprowadzane jest oszacowanie (takie jak regresja, PCA, cokolwiek), warto wykonać je przy użyciu innej techniki, aby sprawdzić wrażliwość lub nawet ewentualne błędy w kodzie. Np. Postępuj zgodnie z regresją OLS za pomocą pewnej formy solidnej regresji i porównaj współczynniki. Aby uzyskać ważne wyniki, uzyskanie odpowiedzi przy użyciu dwóch (lub więcej) różnych platform oprogramowania może być pocieszające.
Być może najlepszym rodzajem ogólnej „kontroli spójności”, jaką każdy może wykonać, jest zobrazowanie wszystkiego, wcześnie i często.
Przypuszczam, że ma to związek z jakąś formą kontroli jakości integralności danych , a dokładniej z regularnym sprawdzaniem, czy działająca baza danych nie jest uszkodzona (z powodu błędu podczas przesyłania, kopiowania lub po aktualizacji lub kontroli poprawności). Może to również oznaczać upewnienie się, że obliczenia pośrednie są dwukrotnie sprawdzane (ręcznie lub za pomocą dodatkowego kodu lub makr w oprogramowaniu statystycznym).
Inne informacje można znaleźć tutaj: przewodnik referencyjny ICH E6 (R1) na temat Wytycznych dobrej praktyki klinicznej z EMEA, Wytyczne dobrej praktyki klinicznej laboratoryjnej lub Zestaw narzędzi dla badaczy badań klinicznych .
dodać do innych dobrych punktów
Podczas korzystania z programu Excel zawsze generuję numer sprawy jako pierwszą kolumnę dla każdego wiersza, a następnie jest on kopiowany do ostatniej kolumny. Excel wydaje się całkiem zadowolony z sortowania tylko kilku kolumn jednocześnie, powodując chaos, jeśli nie wybierzesz wszystkich. Być może nawet nie zdajesz sobie sprawy, że tak się stało. Możliwość sprawdzenia, czy numery spraw są zgodne w pierwszej i ostatniej kolumnie linii, jest użytecznym środkiem ostrożności.
Zawsze sprawdzam wartości odstające.
W przypadku pracy krytycznej zalecane jest podwójne wprowadzanie danych przez oddzielne osoby.
Wprowadzając dane z dokumentów papierowych, dobrym pomysłem jest użycie identyfikatora referencyjnego, aby móc odnieść się do dokładnego dokumentu i wiersza, z którego pochodzą dane wejściowe, numeracja formularzy wprowadzania danych pomaga w tym.
Edycja - Kolejny element - wiem, że edycja arkuszy kalkulacyjnych jest obarczona problemami, ale o wiele łatwiej jest z nimi wyczyścić wprowadzane dane. Zachowuję jednak również oryginalną wersję bez edycji, aby wszelkie zmiany mogły zostać zweryfikowane lub w najgorszym przypadku przywrócone.