Ok, uczciwe ostrzeżenie - to filozoficzne pytanie, które nie zawiera liczb. Dużo zastanawiałem się nad tym, jak błędy wkradają się do zestawów danych w czasie i jak analitycy powinni to potraktować - czy może to naprawdę ma znaczenie?
Na przykład robię analizę długoterminowego badania, które obejmuje wiele zbiorów danych zebranych prawdopodobnie przez 25 osób w ciągu 7-8 lat - nikt nigdy nie wprowadził wszystkich danych do spójnej struktury (to moja praca). Robiłem dużo wprowadzania danych (transkrybowałem z kserokopii starych zeszytów laboratoryjnych) i wciąż znajduję małe błędy transkrypcji, które popełniali inni ludzie, a także znajduję wpisy danych, które są trudne lub niemożliwe do odczytania - głównie z powodu atramentu z czasem zanikło. Korzystam z kontekstu, aby „zgadywać”, co mówią dane, a pozostawienie danych całkowicie wskazać, jeśli nie jestem całkiem pewien. Ale ciągle myślę o tym, że za każdym razem, gdy dane są kopiowane, częstotliwość błędów nieuchronnie wzrośnie, aż oryginalne dane zostaną całkowicie utracone.
To prowadzi mnie więc do myślenia: oprócz błędów przyrządu / błędów pomiaru i błędów zapisu istnieje podstawowy element „błędu przetwarzania danych”, który z czasem wzrośnie i przy większej manipulacji danymi (uwaga dodatkowa: prawdopodobnie po prostu inny sposób określenia drugiej zasady termodynamiki, prawda? Entropia danych zawsze wzrośnie). W związku z tym zastanawiam się, czy należy wprowadzić jakąś „korektę” uwzględniającą historię życia zestawów danych (coś podobnego do korekty Bonferroniego)? Innymi słowy, czy powinniśmy założyć, że starsze lub więcej skopiowanych zestawów danych jest mniej dokładne, a jeśli tak, to czy powinniśmy odpowiednio dostosować ustalenia?
Ale z drugiej strony uważam, że błędy są nieodłączną częścią gromadzenia danych i przetwarzania danych, a ponieważ wszystkie testy statystyczne zostały opracowane z wykorzystaniem danych rzeczywistych, być może te źródła błędów są już „uwzględnione” w analizie?
Warto również wspomnieć o tym, że ponieważ błędy danych są losowe, o wiele bardziej prawdopodobne jest zmniejszenie siły wyników niż ich poprawa - innymi słowy, błędy obsługi danych doprowadziłyby do błędów typu 2, a nie do błędów typu 1. . Tak więc w wielu kontekstach, jeśli korzystałeś ze starych / wątpliwych danych i nadal znajdowałeś efekt, zwiększyłoby to twoją pewność, że efekt jest rzeczywisty (ponieważ był wystarczająco silny, aby przetrwać dodanie losowego błędu do zestawu danych). Z tego powodu być może „korekta” powinna pójść w drugą stronę (zwiększyć poziom alfa wymagany do „znalezienia”), czy po prostu nas nie niepokoić?
W każdym razie, przepraszam, że jestem tak gadatliwy i tępy, że tak naprawdę nie jestem pewien, jak bardziej zwięźle zadać to pytanie. Dziękuję za spotkanie ze mną.
Odpowiedzi:
Popieram sugestię @Aksakal: jeśli analityk widzi błąd pomiaru jako potencjalnie ważny, może i powinien być modelowany jawnie jako część procesu generowania danych.
Widzę kilka uwag przemawiających przeciwko wprowadzeniu ogólnego współczynnika korygującego opartego np. Na wieku zbioru danych.
Po pierwsze, wiek może być bardzo słabym wskaźnikiem pogorszenia jakości danych. Technologia powielania, kompresji i konserwacji, a także stopień wysiłku i staranności, które wymagały weryfikacji poprawnej transkrypcji, są najwyraźniej ważnymi czynnikami. Niektóre starożytne teksty (np. Biblia) zostały zachowane przez wieki z pozornie zerową degradacją. Twój przykład VHS, choć uzasadniony, jest w rzeczywistości niezwykły, ponieważ każde zdarzenie duplikacji zawsze wprowadza błąd, a nie ma łatwych sposobów sprawdzania i korygowania błędów transkrypcji - jeśli używa się tanich, szeroko dostępnych technologii do powielania i przechowywania. Oczekuję, że znacznie obniży to stopień wprowadzanych błędów, poprzez inwestycje w droższe systemy.
Ten ostatni punkt jest bardziej ogólny: ochrona i rozpowszechnianie danych to działalność gospodarcza . Jakość transmisji zależy w dużej mierze od wdrożonych zasobów. Te wybory będą z kolei zależeć od postrzeganego znaczenia danych dla tego, kto kopiuje i przesyła dane.
Aspekty ekonomiczne dotyczą również analityka. Zawsze wykonując analizę, możesz wziąć pod uwagę więcej czynników. W jakich warunkach błędy transkrypcji danych będą wystarczająco istotne i na tyle ważne, że warto je wziąć pod uwagę? Mam przeczucie, że takie warunki nie są powszechne. Ponadto, jeśli potencjalna degradacja danych jest postrzegana jako wystarczająco ważna, aby uwzględnić ją w analizie, to prawdopodobnie jest wystarczająco ważna, aby starać się jawnie modelować proces, zamiast wstawiać ogólny krok „korekty”.
Wreszcie nie ma potrzeby opracowywania takiego ogólnego współczynnika korygującego de novo . Istnieje już znaczna część teorii statystycznej i praktyki do analizy zbiorów danych, dla których błąd pomiaru jest postrzegany jako ważny.
Podsumowując: to ciekawa myśl. Ale nie sądzę, że powinno to pobudzić jakiekolwiek zmiany w praktyce analitycznej.
źródło