Niedawno zadałem pytanie dotyczące ogólnych zasad dotyczących przeglądu statystyk w artykułach . Chciałbym teraz zapytać o to, co szczególnie irytuje cię podczas recenzowania artykułu, czyli jaki jest najlepszy sposób, aby naprawdę zirytować sędziego statystycznego!
Poproszę jeden przykład na odpowiedź.
references
referee
csgillespie
źródło
źródło
Odpowiedzi:
To, co mnie szczególnie denerwuje , to osoby, które wyraźnie używały napisanych przez użytkownika pakietów oprogramowania statystycznego, ale nie przytaczały ich właściwie, lub wcale, nie uznając autorów. Jest to szczególnie ważne, gdy autorzy są w środowisku akademickim, a ich praca zależy od publikacji cytowanych artykułów . (Być może powinienem dodać, że w mojej dziedzinie wielu sprawców nie jest statystykami).
źródło
Na litość boską, przychodzi mi na myśl wiele rzeczy ...
Regresja krokowa
Dzielenie ciągłych danych na grupy
Podawanie wartości p, ale bez pomiaru wielkości efektu
Opisywanie danych przy użyciu średniej i odchylenia standardowego bez wskazania, czy dane były mniej więcej symetryczne i nieimodalne
Liczby bez wyraźnych podpisów (czy te słupki błędów są standardowymi błędami średniej, odchyleniami standardowymi w grupach, czy co?)
źródło
Irene Stratton i kolega opublikowali krótki artykuł na ściśle związane pytanie:
Stratton IM, Neil A. Jak upewnić się, że Twój artykuł zostanie odrzucony przez recenzenta statystycznego . Diabetic Medicine 2005; 22 (4): 371–373.
źródło
Kod użyty do wygenerowania symulowanych wyników nie został podany. Po zapytaniu o kod wymaga dodatkowej pracy, aby uruchomić go na zestawie danych wygenerowanym przez sędziego.
źródło
Plagiat (teoretyczny lub metodologiczny). Moja pierwsza recenzja rzeczywiście dotyczyła artykułu zawierającego wiele niereferencyjnych kopii / past z dobrze ugruntowanego artykułu metodologicznego opublikowanego 10 lat temu.
Właśnie znalazłem kilka interesujących artykułów na ten temat: Autorstwo i plagiat w nauce .
W tym samym duchu najgorsze jest dla mnie fałszowanie (danych lub wyników).
źródło
Kiedy pytamy autorów o
i że autorzy tak naprawdę nie odpowiadają w przypadku (1) ani że oskarżone wyniki w (2) znikają z MS.
źródło
Mylące wartości p i wielkość efektu (tj. Stwierdzenie, że mój efekt jest duży, ponieważ mam naprawdę niewielką wartość p).
Nieco inna niż odpowiedź Stephana dotycząca wykluczenia wielkości efektu, ale podania wartości p. Zgadzam się, że powinieneś podać oba (i mam nadzieję, że zrozumiesz różnicę!)
źródło
Nie uwzględniając rozmiarów efektów.
P-badając wszystkie badania (muszę przyznać, że moja ulubiona profesorka za tę linię).
Podawanie niedorzecznej liczby cyfr (mężczyźni zyskali 3,102019 funtów więcej niż kobiety)
Bez numerów stron (co utrudnia przeglądanie)
Błędne numerowanie liczb i tabel
(jak już wspomniano - krokowe i kategoryzowanie zmiennych ciągłych)
źródło
Gdy nie wyjaśniają wystarczająco swojej analizy i / lub zawierają prostych błędów, które utrudniają ustalenie, co faktycznie zostało zrobione. Obejmuje to często rzucanie żargonem w celu wyjaśnienia, co jest bardziej niejednoznaczne, niż autor zdaje się zdawać sobie sprawę, a także może być niewłaściwie używane.
źródło
Używanie języka przyczynowego do opisywania powiązań w danych obserwacyjnych, gdy pominięte zmienne są prawie na pewno poważnym problemem.
źródło
Kiedy autorzy używają jednego znanego mi testu statystycznego (w mojej dziedzinie, zwykle testu t lub ANOVA), ad infinitum, niezależnie od tego, czy jest to właściwe. Niedawno przejrzałem artykuł, w którym autorzy chcieli porównać tuzin różnych grup leczenia, więc wykonali test t dla dwóch możliwych próbek dla każdej możliwej pary zabiegów ...
źródło
Wymyślanie nowych słów dla istniejących pojęć lub odwrotnie, używanie istniejących terminów w celu oznaczenia czegoś innego.
Niektóre z istniejących różnic terminologicznych od dawna utrwalają się w literaturze: dane podłużne w biostatystyce vs. dane panelowe w ekonometrii; wskaźniki przyczyny i skutku w socjologii a wskaźniki kształtujące i refleksyjne w psychologii; itd. Nadal ich nienawidzę, ale przynajmniej można znaleźć kilka tysięcy odniesień do każdego z nich w odpowiednich literaturach. Najnowszym jest cały ten wątek pracy nad ukierunkowanymi wykresami acyklicznymi w literaturze przyczynowej: większość, jeśli nie całość, teorii identyfikacji i estymacji w nich została opracowana przez ekonometrów w latach 50. XX wieku pod nazwą równań równoczesnych.
Termin, który ma podwójne, jeśli nie potrójne znaczenie, jest „solidny”, a różne znaczenia są często sprzeczne. „Solidne” błędy standardowe nie są niezawodne w przypadku odstających wartości; co więcej, nie są odporne na nic poza zakładanym odchyleniem od modelu i często mają ponure wyniki dla małych próbek. Standardowe błędy bieli nie są odporne na korelacje szeregowe lub klastra; „solidne” błędy standardowe w SEM nie są odporne na błędne specyfikacje struktury modelu (pominięte ścieżki lub zmienne). Podobnie jak w przypadku koncepcji testowania znaczenia hipotezy zerowej, nie można nikogo wskazać palcem i powiedzieć: „Jesteś odpowiedzialny za zamieszanie kilku pokoleń badaczy za sformułowanie tego pojęcia, które tak naprawdę nie oznacza jego nazwy”.
źródło
gllamm
który traktuje twoje dane jako dane wielopoziomowe / hierarchiczne, ale większość innych pakietów uznałaby wiele pomiarów za zmienne / kolumny, a próbki za obserwacje / wiersze.Brak uwzględnienia brakujących danych.
Wiele praktycznych aplikacji wykorzystuje dane, dla których brakuje przynajmniej niektórych wartości. Jest to z pewnością bardzo prawdziwe w epidemiologii. Brakujące dane stanowią problem dla wielu metod statystycznych - w tym modeli liniowych. Brakujące dane w modelach liniowych są często usuwane poprzez usunięcie przypadków z brakującymi danymi na dowolnych współzmiennych. Jest to problem, chyba że brakuje danych przy założeniu, że brakuje danych całkowicie losowo (MCAR).
Być może 10 lat temu uzasadnione było opublikowanie wyników z modeli liniowych bez dalszego rozważania braków. Z pewnością jestem tego winny. Jednak bardzo dobre porady dotyczące postępowania z brakującymi danymi z wielokrotnym przypisaniem są obecnie szeroko dostępne, podobnie jak pakiety statystyczne / modele / biblioteki / itp. aby ułatwić bardziej odpowiednie analizy przy bardziej uzasadnionych założeniach, gdy występuje brak.
źródło
Raportowanie efektów, które „zbliżyły się do istotności (na przykład p <.10), a następnie pisanie o nich tak, jakby osiągnęły istotność na bardziej rygorystycznym i akceptowalnym poziomie. Uruchamianie wielu modeli równań strukturalnych, które nie zostały zagnieżdżone, a następnie pisanie o nich, jakby zostały zagnieżdżone. Przyjmując ugruntowaną strategię analityczną i przedstawiając ją tak, jakby nikt nigdy wcześniej nie myślał o jej użyciu. Być może kwalifikuje się to jako plagiat do n-tego stopnia.
źródło
Polecam następujące dwa artykuły:
Martin Bland:
Jak zdenerwować sędziego statystycznego
Opiera się on na serii rozmów przeprowadzonych przez Martina Blanda, a także na danych innych sędziów statystycznych („próbka dla wygody z niskim wskaźnikiem odpowiedzi”). Kończy się 11-punktową listą „[h] ow, aby uniknąć zdenerwowania sędziego statystycznego”.
Stian Lydersen:
Przegląd statystyczny: często komentowane
Ten ostatni artykuł (opublikowany 2014/2015) wymienia 14 najczęstszych komentarzy recenzentów autora, opartych na ok. 200 przeglądów statystycznych artykułów naukowych (w danym czasopiśmie). Każdy komentarz zawiera krótkie wyjaśnienie problemu i instrukcje, jak prawidłowo przeprowadzić analizę / raportowanie. Lista cytowanych referencji jest skarbnicą interesujących artykułów.
źródło
Najbardziej (i najczęściej) denerwuje mnie „walidacja” mająca na celu błąd uogólnienia modeli predykcyjnych, w których dane testowe nie są niezależne (np. Zazwyczaj wiele pomiarów danych na pacjenta w danych, brak ładowania początkowego lub pomiary podziału walidacji krzyżowej nie pacjenci ).
Jeszcze bardziej denerwujące są dokumenty, które dają tak błędne wyniki weryfikacji krzyżowej oraz niezależny zestaw testów, który wykazuje nadmiernie optymistyczne podejście do weryfikacji krzyżowej, ale ani jednego słowa, że projekt weryfikacji krzyżowej jest nieprawidłowy ...
(Byłbym bardzo szczęśliwy, gdyby te same dane zostały przedstawione „wiemy, że krzyżowa walidacja powinna rozdzielić pacjentów, ale utknęliśmy w oprogramowaniu, które na to nie pozwala. Dlatego też przetestowaliśmy naprawdę niezależny zestaw pacjentów testowych „)
(Zdaję sobie również sprawę, że ładowanie początkowe = ponowne próbkowanie z zastępowaniem zwykle działa lepiej niż walidacja krzyżowa = ponowne próbkowanie bez zastępowania. Jednak w przypadku danych spektroskopowych (widma symulowane i nieco sztuczny układ modelu, ale rzeczywiste widma) stwierdziliśmy, że powtórzenie / iteracja weryfikacji krzyżowej i obecnie -of-bootstrap miał podobną ogólną niepewność; oob miał więcej stronniczości, ale mniej wariancji - w przypadku rewie, patrzę na to z bardzo pragmatycznego punktu widzenia: wielokrotne sprawdzanie poprawności krzyżowej w porównaniu z bootstrapem nie ma znaczenia, o ile wiele artykułów nie dzielą się na pacjentów ani nie zgłaszają / omawiają / wspominają o niepewności losowej z powodu ograniczonej wielkości próbki testowej).
Oprócz tego, że się myli, ma to również efekt uboczny, że ludzie, którzy dokonują prawidłowej walidacji, często muszą bronić, dlaczego ich wyniki są znacznie gorsze niż wszystkie inne wyniki w literaturze.
źródło
Używanie „danych” w szczególnym znaczeniu. Dane SĄ, nigdy nie są.
źródło
Zdecydowanie dla mnie jest przypisywanie przyczyny bez odpowiedniej analizy przyczynowej lub w przypadku niewłaściwego wnioskowania przyczynowego.
Nienawidzę go również, gdy nie zwraca się uwagi na sposób obsługi brakujących danych. Widzę tak wiele prac, w których autorzy po prostu przeprowadzają pełną analizę przypadków i nie wspominają, czy wyniki można uogólnić na populację z brakującymi wartościami lub jak populacja z brakującymi wartościami może systematycznie różnić się od populacji z pełnymi danymi.
źródło
Używanie Microsoft Word zamiast LaTeX.
źródło