Jakie są szerokie metody wykrywania oszustw, anomalii, kruszenia itp. W pracach naukowych wyprodukowanych przez stronę trzecią? (Byłem zmotywowany, aby zapytać o to w ostatnim romansie Marca Hausera ). Zwykle w przypadku oszustw związanych z wyborami i rachunkowością przytaczany jest pewien wariant prawa Benforda . Nie jestem pewien, jak można to zastosować np. W przypadku Marca Hausera, ponieważ prawo Benforda wymaga, aby liczby były w przybliżeniu jednolite.
Jako konkretny przykład, załóżmy, że w pracy przytoczono wartości p dla dużej liczby testów statystycznych. Czy można je przekształcić, aby rejestrować jednolitość, a następnie zastosować prawo Benforda? Wydaje się, że przy takim podejściu występowałyby wszelkiego rodzaju problemy ( np. Niektóre hipotezy zerowe mogą być słusznie fałszywe, kod statystyczny może dawać wartości p, które są w przybliżeniu poprawne, testy mogą dawać tylko wartości p, które są jednolite asymetrycznie poniżej zera itp.)
źródło
Odpowiedzi:
Świetne pytanie!
W kontekście naukowym istnieje wiele rodzajów problematycznych raportów i problematycznych zachowań:
Typowe przykłady niewłaściwych zachowań obejmują:
Ogólnie rzecz biorąc, postawiłbym hipotezę, że niekompetencja jest związana ze wszystkimi trzema formami problematycznego zachowania. Badacz, który nie rozumie, jak robić dobrą naukę, ale w inny sposób chce odnieść sukces, będzie miał większą motywację do fałszywego przedstawiania swoich wyników i rzadziej przestrzega zasad etycznej analizy danych.
Powyższe rozróżnienia mają wpływ na wykrywanie problematycznych zachowań. Na przykład, jeśli uda Ci się stwierdzić, że zestaw zgłoszonych wyników jest nieprawidłowy, nadal należy ustalić, czy wyniki wynikają z oszustwa, błędu lub niewłaściwego zachowania. Zakładam również, że różne formy niewłaściwych zachowań są znacznie bardziej powszechne niż oszustwa.
Jeśli chodzi o wykrywanie problematycznych zachowań, myślę, że w dużej mierze jest to umiejętność wynikająca z doświadczenia w pracy z danymi , pracy z tematem i pracy z badaczami. Wszystkie te doświadczenia wzmacniają Twoje oczekiwania dotyczące tego, jak powinny wyglądać dane. Tak więc duże odchylenia od oczekiwań rozpoczynają proces poszukiwania wyjaśnienia. Doświadczenie z badaczami daje poczucie rodzajów niewłaściwych zachowań, które są mniej lub bardziej powszechne. W połączeniu prowadzi to do generowania hipotez. Na przykład, jeśli przeczytam artykuł w czasopiśmie i zaskoczę się wynikami, badanie jest słabe, a charakter pisma sugeruje, że autor jest nastawiony na rację, generuję hipotezę, że wyniki nie powinny być zaufany.
Inne zasoby
źródło
W rzeczywistości prawo Benforda jest niezwykle potężną metodą. Wynika to z faktu, że rozkład częstotliwości pierwszej cyfry Benforda ma zastosowanie do wszelkiego rodzaju zestawów danych występujących w świecie rzeczywistym lub naturalnym.
Masz rację, że możesz używać prawa Benforda tylko w pewnych okolicznościach. Mówisz, że dane muszą mieć jednolity rozkład logów. Technicznie jest to absolutnie poprawne. Ale możesz opisać to wymaganie w znacznie prostszy i łagodny sposób. Wystarczy, że zakres zestawu danych przekroczy co najmniej jeden rząd wielkości. Powiedzmy, że od 1 do 9 lub 10 do 99 lub 100 do 999. Jeśli przekroczy dwa rzędy wielkości, jesteś w interesach. Prawo Benforda powinno być bardzo pomocne.
Piękno prawa Benforda polega na tym, że pomaga ono bardzo szybko zawęzić swoje dochodzenie w sprawie igły w stosie danych siana. Szukasz anomalii, w których częstotliwość pierwszej cyfry jest znacznie inna niż częstotliwość Benforda. Gdy zauważysz, że istnieją dwa wiele 6, następnie skorzystaj z Prawa Benforda, aby skupić się tylko na 6. ale teraz przechodzisz do pierwszych dwóch cyfr (60, 61, 62, 63 itd.). Być może teraz odkryjesz, że jest o wiele więcej 63s niż sugeruje Benford (zrobiłbyś to obliczając częstotliwość Benforda: log (1 + 1/63), który daje ci wartość bliską 0%). Więc używasz Benforda do pierwszych trzech cyfr. Zanim się dowiesz, jest o wiele za dużo 632 (lub cokolwiek, obliczając częstotliwość Benforda: log (1 + 1/632)), niż się spodziewałeś, prawdopodobnie coś robisz. Nie wszystkie anomalie są oszustami. Ale,
Jeśli zestaw danych, którymi manipulował Marc Hauser, są naturalnymi, nieograniczonymi danymi o pokrewnym zakresie, który jest wystarczająco szeroki, to prawo Benforda byłoby całkiem dobrym narzędziem diagnostycznym. Jestem pewien, że istnieją inne dobre narzędzia diagnostyczne wykrywające również nieoczekiwane wzorce, a łącząc je z prawem Benforda, najprawdopodobniej mógłbyś skutecznie zbadać sprawę Marca Hausera (biorąc pod uwagę wspomniany wymóg dotyczący danych prawa Benforda).
Wyjaśniam nieco Prawo Benforda w tej krótkiej prezentacji, którą można zobaczyć tutaj: http://www.slideshare.net/gaetanlion/benfords-law-4669483
źródło