Jak zirytować sędziego statystycznego?

102

Niedawno zadałem pytanie dotyczące ogólnych zasad dotyczących przeglądu statystyk w artykułach . Chciałbym teraz zapytać o to, co szczególnie irytuje cię podczas recenzowania artykułu, czyli jaki jest najlepszy sposób, aby naprawdę zirytować sędziego statystycznego!

Poproszę jeden przykład na odpowiedź.

csgillespie
źródło
Czy rozciąga się na uzasadnienia otrzymane w odpowiedzi na wstępny przegląd (w którym poproszono o drobne i / lub poważne poprawki)?
chl
@chl: Tak, dlaczego nie.
csgillespie,

Odpowiedzi:

69

To, co mnie szczególnie denerwuje , to osoby, które wyraźnie używały napisanych przez użytkownika pakietów oprogramowania statystycznego, ale nie przytaczały ich właściwie, lub wcale, nie uznając autorów. Jest to szczególnie ważne, gdy autorzy są w środowisku akademickim, a ich praca zależy od publikacji cytowanych artykułów . (Być może powinienem dodać, że w mojej dziedzinie wielu sprawców nie jest statystykami).

jeden przystanek
źródło
2
+1 dla mnie. To mnie frustruje, zwłaszcza gdy przytaczają niewłaściwą rzecz i podałem odpowiednie szczegóły dotyczące cytowania paczek
Gavin Simpson,
3
Pytanie: cytując paczkę, czy cytujesz winietę (jeśli taka istnieje) lub samą paczkę?
Brandon Bertelsen
7
@Brandon: jeśli autorowi paczki zależy na tobie wystarczająco, by cię poprowadzić, to udzielił odpowiedzi w formie, która zostanie odebrana przez cytowanie („some_package”)
Ben Bolker
2
Oprócz posiadania przełomowego papieru, co nie jest tak łatwe do zrobienia, najłatwiejszym sposobem na uzyskanie cytatów jest pozostawienie co najmniej jednego błędu w dokumencie. Następnie możesz opublikować poprawkę, która przytacza oryginalny artykuł. Zostaw błąd w korekcie, a możesz opublikować poprawkę, która odwołuje się do oryginalnej poprawki i oryginalnej pracy (widziałem coś takiego jak student pierwszego roku). Liczba cytowań rośnie w procesie O (N ^ 2), gdzie N jest liczbą poprawek.
Mark L. Stone,
67

Na litość boską, przychodzi mi na myśl wiele rzeczy ...

  • Regresja krokowa

  • Dzielenie ciągłych danych na grupy

  • Podawanie wartości p, ale bez pomiaru wielkości efektu

  • Opisywanie danych przy użyciu średniej i odchylenia standardowego bez wskazania, czy dane były mniej więcej symetryczne i nieimodalne

  • Liczby bez wyraźnych podpisów (czy te słupki błędów są standardowymi błędami średniej, odchyleniami standardowymi w grupach, czy co?)

Stephan Kolassa
źródło
5
Jestem trochę ciekawy kuli z regresją stopniową. Co sprawia, że ​​regresja krokowa jest tak zła? Czy to kwestia pogłębiania danych i wielu porównań?
Christopher Aden,
17
Problem polega na tym, że procedury krokowe całkowicie unieważniają wszystkie założenia i warunki wstępne dla „normalnej” statystyki wnioskowania opartej na wartościach p, które są następnie bardzo tendencyjne (w dół w kierunku „bardziej znaczącego”). Zasadniczo odpowiedź brzmi „tak”, z zastrzeżeniem, że można zasadniczo skorygować wszystkie te wielokrotne porównania (ale których nigdy nie widziałem). Mocno wierzę, że jest to jeden z najważniejszych powodów, dla których widzę tyle badań w dziedzinie psychologii, których nie można powtórzyć - co z kolei prowadzi do ogromnego marnotrawstwa zasobów.
Stephan Kolassa,
10
@Stephan: Zgadzam się, krok po kroku to zły pomysł. Chociaż, chociaż nie doszli jeszcze do metod psychicznych, istnieje wiele różnych procedur selekcji, które dostosowują się do stronniczości związanej z przeregulowaniem poprzez dostosowanie szacunków i standardowych błędów. Zwykle nie jest to uważane za problem wielu porównań. Są znane jako metody skurczu. Zobacz moją odpowiedź w tym wątku < stats.stackexchange.com/questions/499/… > i „Strategie modelowania regresji” Harrella, lub Tibshirani na lasso.
Brett,
5
@Brett Magill: +1 w tej sprawie i tak, wiem o skurczu i lasso. Teraz potrzebuję tylko sposobu, aby przekonać psychologów, że mają one sens ... ale ludzie walczą z bardzo ograniczonym sukcesem tylko po to, aby psychologowie zgłaszali przedziały ufności, więc nie jestem zbyt optymistyczny, jeśli chodzi o akceptację przez psychologów kurczenia się w następnym dwadzieścia lat.
Stephan Kolassa,
10
Twierdziłbym również, że w psychologii maksymalizacja przewidywania nie jest zazwyczaj celem teoretycznym, ale regresja krokowa polega na maksymalizacji przewidywania, choć w quasi-oszczędny sposób. Zatem zwykle istnieje rozdźwięk między procedurą a pytaniem.
Jeromy Anglim
32

Kod użyty do wygenerowania symulowanych wyników nie został podany. Po zapytaniu o kod wymaga dodatkowej pracy, aby uruchomić go na zestawie danych wygenerowanym przez sędziego.

603
źródło
2
Jest źle sformatowany, nieskomentowany i używa nieczytelnych nazw zmiennych i funkcji. Ooooch tak.
naught101
30

Plagiat (teoretyczny lub metodologiczny). Moja pierwsza recenzja rzeczywiście dotyczyła artykułu zawierającego wiele niereferencyjnych kopii / past z dobrze ugruntowanego artykułu metodologicznego opublikowanego 10 lat temu.

Właśnie znalazłem kilka interesujących artykułów na ten temat: Autorstwo i plagiat w nauce .

W tym samym duchu najgorsze jest dla mnie fałszowanie (danych lub wyników).

Chl
źródło
20
Przypomina mi, że w moich wczesnych dni jako sędziego spędziłem zdecydowanie zbyt długo, przeglądając dokument statystyczny, który został ostatecznie odrzucony przez danego czasopisma, ale pozostali sędziowie i zasugerowałem bardziej przydatna aplikacja dla metody, a ja również zarysowane algebraiczny dowód zastąpić niezadowalające studium symulacyjne w manuskrypcie. Od tego czasu autorzy wyciągnęli z tego dwa opublikowane artykuły. Nie denerwuje mnie to, ale uznanie, takie jak: „dziękujemy sędziom wcześniejszej wersji artykułu za pomocne komentarze” byłoby dobrym manierem.
onestop
1
@onestop Tak, mogę sobie wyobrazić, jak rozczarowująca może być taka sytuacja ...
chl
24
Kilka tygodni temu dostałem artykuł do recenzji i stwierdziłem, że 85% z nich zostało opublikowanych w innym czasopiśmie ... przez tych samych autorów. To również jest nadal uważane za plagiat. Przez ostatnie kilka lat rutynowo przesyłałem fragmenty artykułów - zwłaszcza streszczenia, wstępy i wnioski - do wyszukiwarek internetowych przed dokonaniem jakiejkolwiek recenzji. Chcę mieć pewność, że dzieło jest oryginalne, zanim zainwestuję w jego czytanie.
whuber
7
+1, @whuber. Jako redaktor czasopisma metodologicznego często mam trudną pracę nad ustaleniem, czy wkład (z reguły od autorów o ugruntowanej pozycji; młodsi autorzy nie dotarli jeszcze do tej trajektorii) uzasadnia publikację, biorąc pod uwagę, że „ Po zakończeniu zostały one w inny sposób zmontowane z ośmiu klocków Lego, które zawierały ich poprzednie pięć artykułów. To prowadzi mnie do zakwestionowania wkładu w poprzednich pięćdziesięciu artykułach również opublikowanych przez tych autorów :(.
StasK
26

Kiedy pytamy autorów o

  1. drobny komentarz na temat naszego pomysłu (w tym sensie nie jest to uważane za powód do odrzucenia pracy, ale tylko dla pewności, że autorzy są w stanie omówić inny POV), lub
  2. niejasne lub sprzeczne wyniki,

i że autorzy tak naprawdę nie odpowiadają w przypadku (1) ani że oskarżone wyniki w (2) znikają z MS.

chl
źródło
7
Tajemniczo znikające wyniki powinny być automatycznym odrzuceniem, imo. Jestem pewien, że dzieje się to często „za kulisami” (tj. Przed przesłaniem artykułu), ale jest to wyraźny dowód na „wybieranie czereśni”, którego normalni czytelnicy nie poznają.
Makro,
3
Kolejny powód otwartego systemu wzajemnej oceny.
fmark
24

Mylące wartości p i wielkość efektu (tj. Stwierdzenie, że mój efekt jest duży, ponieważ mam naprawdę niewielką wartość p).

Nieco inna niż odpowiedź Stephana dotycząca wykluczenia wielkości efektu, ale podania wartości p. Zgadzam się, że powinieneś podać oba (i mam nadzieję, że zrozumiesz różnicę!)

Andy W.
źródło
23

Nie uwzględniając rozmiarów efektów.

P-badając wszystkie badania (muszę przyznać, że moja ulubiona profesorka za tę linię).

Podawanie niedorzecznej liczby cyfr (mężczyźni zyskali 3,102019 funtów więcej niż kobiety)

Bez numerów stron (co utrudnia przeglądanie)

Błędne numerowanie liczb i tabel

(jak już wspomniano - krokowe i kategoryzowanie zmiennych ciągłych)

Peter Flom
źródło
7
(+1) roześmiał się głośno na „Podanie niedorzecznej liczby cyfr (mężczyźni zyskali 3,102019 funtów więcej niż kobiety)”.
Makro,
19

Gdy nie wyjaśniają wystarczająco swojej analizy i / lub zawierają prostych błędów, które utrudniają ustalenie, co faktycznie zostało zrobione. Obejmuje to często rzucanie żargonem w celu wyjaśnienia, co jest bardziej niejednoznaczne, niż autor zdaje się zdawać sobie sprawę, a także może być niewłaściwie używane.

anony
źródło
Zgadzam się - walka o zrozumienie, co autor (autorzy) mieli na myśli, zanim nawet ocena treści naukowej jest naprawdę denerwująca.
Laurent,
5
Zgadzam się, ale jeszcze bardziej denerwuje mnie, gdy recenzent mówi ci, abyś pominął (lub przerzucił się na dodatkowe materiały), które są realistycznie bardzo istotnymi szczegółami analizy. Ten problem sprawia, że ​​wiele artykułów naukowych / społecznych, które przeprowadzają nawet najbardziej skomplikowane analizy, jest pod tym względem dość tajemniczych.
Makro,
16

Używanie języka przyczynowego do opisywania powiązań w danych obserwacyjnych, gdy pominięte zmienne są prawie na pewno poważnym problemem.

Michael Bishop
źródło
3
Zgadzam się, że badacze powinni zrozumieć zobowiązania wynikające z projektów badań obserwacyjnych, szczególnie te związane z pominiętymi zmiennymi, ale nie sądzę, aby unikało to przyczynowego języka. Zobacz pracę Huberta Blalocka, w szczególności jego książkę Causal Inferences in Non-experimental Research, aby uzyskać bardziej szczegółowy argument w obronie używania języka przyczynowego.
Andy W
3
(+1) To może być mój największy problem z badaniami epidemiologicznymi.
Makro,
14

Kiedy autorzy używają jednego znanego mi testu statystycznego (w mojej dziedzinie, zwykle testu t lub ANOVA), ad infinitum, niezależnie od tego, czy jest to właściwe. Niedawno przejrzałem artykuł, w którym autorzy chcieli porównać tuzin różnych grup leczenia, więc wykonali test t dla dwóch możliwych próbek dla każdej możliwej pary zabiegów ...

Freya Harrison
źródło
13

Wymyślanie nowych słów dla istniejących pojęć lub odwrotnie, używanie istniejących terminów w celu oznaczenia czegoś innego.

Niektóre z istniejących różnic terminologicznych od dawna utrwalają się w literaturze: dane podłużne w biostatystyce vs. dane panelowe w ekonometrii; wskaźniki przyczyny i skutku w socjologii a wskaźniki kształtujące i refleksyjne w psychologii; itd. Nadal ich nienawidzę, ale przynajmniej można znaleźć kilka tysięcy odniesień do każdego z nich w odpowiednich literaturach. Najnowszym jest cały ten wątek pracy nad ukierunkowanymi wykresami acyklicznymi w literaturze przyczynowej: większość, jeśli nie całość, teorii identyfikacji i estymacji w nich została opracowana przez ekonometrów w latach 50. XX wieku pod nazwą równań równoczesnych.

Termin, który ma podwójne, jeśli nie potrójne znaczenie, jest „solidny”, a różne znaczenia są często sprzeczne. „Solidne” błędy standardowe nie są niezawodne w przypadku odstających wartości; co więcej, nie są odporne na nic poza zakładanym odchyleniem od modelu i często mają ponure wyniki dla małych próbek. Standardowe błędy bieli nie są odporne na korelacje szeregowe lub klastra; „solidne” błędy standardowe w SEM nie są odporne na błędne specyfikacje struktury modelu (pominięte ścieżki lub zmienne). Podobnie jak w przypadku koncepcji testowania znaczenia hipotezy zerowej, nie można nikogo wskazać palcem i powiedzieć: „Jesteś odpowiedzialny za zamieszanie kilku pokoleń badaczy za sformułowanie tego pojęcia, które tak naprawdę nie oznacza jego nazwy”.

StasK
źródło
1
Muszę przyznać, że popełniłem oba grzechy: opisuję swoje dane jako „mające strukturę hierarchiczną: kiedy mam poziomy z relacjami 1: n (wiele pomiarów każdej próbki, wiele próbek na pacjenta). W pewnym momencie raczej przypadkowo dowiedziałem się, że to nazywa się „klastrowaną” strukturą danych - teraz używam obu terminów. Ale wciąż nie wiem, jak mogłem znaleźć ten termin, szukałem desperacko słowa, aby opisać moją strukturę danych ... Odwrotnie: I korzystać z technik, które są wywoływane klasyfikacja miękki w teledetekcji mojej dziedzinie (chemometria) używa go z zupełnie innego znaczenia..
cbeleites
2
To wszystko w porządku - możesz dodać „wielopoziomowy” do swojej listy sposobów odwoływania się również do tej struktury. „Klastrowany” zwykle oznacza, że ​​obserwacje są skorelowane, ale nikomu nie zależy na modelowaniu tej korelacji, ponieważ nie jest ona podstawowa, i eliminuje metody odporne na taką korelację, takie jak GEE. To, co masz, przypomina powtarzane pomiary MANOVA. Istnieje pakiet Stata, gllammktóry traktuje twoje dane jako dane wielopoziomowe / hierarchiczne, ale większość innych pakietów uznałaby wiele pomiarów za zmienne / kolumny, a próbki za obserwacje / wiersze.
StasK
Dzięki za wkład. Cóż, w dzisiejszych czasach oczywiście zapytam, jak się nazywa ... Pomiary nie są dokładnie powtarzane: zwykle mierzę liczbę (rząd wielkości: od 10 ^ 2 do 10 ^ 4) różnych miejsc na próbce, aby produkuje fałszywe mapy różnych składników, a każdy pomiar ma już 10 ^ 2 - 10 ^ 3 obserwacji (długości fal w widmie). W obrębie każdej próbki wiele widm jest wysoce skorelowanych, ale nie wszystkie: próbki nie są jednorodne. ...
cbeleites,
1
... Twój opis „skupionego” brzmi bardzo podobnie do tego, co robimy. Ale staram się rozdzielić próbki do walidacji, powiedzieć, że nie mam pojęcia o efektywnej wielkości próbki (poza tym, że jest to co najmniej liczba rzeczywistych zaangażowanych próbek), a czasami pokazuję, że mając wszystkie te pomiary każdego Próbka faktycznie pomaga w treningu modelowym.
cbeleites,
1
Z pewnością interesujące i wymagające dane.
StasK
11

Brak uwzględnienia brakujących danych.

Wiele praktycznych aplikacji wykorzystuje dane, dla których brakuje przynajmniej niektórych wartości. Jest to z pewnością bardzo prawdziwe w epidemiologii. Brakujące dane stanowią problem dla wielu metod statystycznych - w tym modeli liniowych. Brakujące dane w modelach liniowych są często usuwane poprzez usunięcie przypadków z brakującymi danymi na dowolnych współzmiennych. Jest to problem, chyba że brakuje danych przy założeniu, że brakuje danych całkowicie losowo (MCAR).

Być może 10 lat temu uzasadnione było opublikowanie wyników z modeli liniowych bez dalszego rozważania braków. Z pewnością jestem tego winny. Jednak bardzo dobre porady dotyczące postępowania z brakującymi danymi z wielokrotnym przypisaniem są obecnie szeroko dostępne, podobnie jak pakiety statystyczne / modele / biblioteki / itp. aby ułatwić bardziej odpowiednie analizy przy bardziej uzasadnionych założeniach, gdy występuje brak.

D L Dahly
źródło
1
Czy w duchu uczenia się możesz rozwinąć coś więcej? Co bierzesz pod uwagę - przyznanie się do tego lub dostosowanie analizy statystycznej w obliczu tego (np. Przypisanie). W stosownych przypadkach próbuję dołączyć supp. tabele brakujących wartości według zmiennych towarzyszących zainteresowania, ale nie jest jasne, czy jest to wystarczające do „rozważenia” przez tę uwagę.
Andy W
8

Raportowanie efektów, które „zbliżyły się do istotności (na przykład p <.10), a następnie pisanie o nich tak, jakby osiągnęły istotność na bardziej rygorystycznym i akceptowalnym poziomie. Uruchamianie wielu modeli równań strukturalnych, które nie zostały zagnieżdżone, a następnie pisanie o nich, jakby zostały zagnieżdżone. Przyjmując ugruntowaną strategię analityczną i przedstawiając ją tak, jakby nikt nigdy wcześniej nie myślał o jej użyciu. Być może kwalifikuje się to jako plagiat do n-tego stopnia.

StatisticsDoc Consulting
źródło
Może to raczej odkrycie koła niż plagiat?
gerrit
7

Polecam następujące dwa artykuły:

Martin Bland:
Jak zdenerwować sędziego statystycznego
Opiera się on na serii rozmów przeprowadzonych przez Martina Blanda, a także na danych innych sędziów statystycznych („próbka dla wygody z niskim wskaźnikiem odpowiedzi”). Kończy się 11-punktową listą „[h] ow, aby uniknąć zdenerwowania sędziego statystycznego”.

Stian Lydersen:
Przegląd statystyczny: często komentowane
Ten ostatni artykuł (opublikowany 2014/2015) wymienia 14 najczęstszych komentarzy recenzentów autora, opartych na ok. 200 przeglądów statystycznych artykułów naukowych (w danym czasopiśmie). Każdy komentarz zawiera krótkie wyjaśnienie problemu i instrukcje, jak prawidłowo przeprowadzić analizę / raportowanie. Lista cytowanych referencji jest skarbnicą interesujących artykułów.

Karl Ove Hufthammer
źródło
Lista Lydersena jest interesująca. Myślę, że nie zgadzam się z garstką z nich. . .
StatsStudent
6

Najbardziej (i najczęściej) denerwuje mnie „walidacja” mająca na celu błąd uogólnienia modeli predykcyjnych, w których dane testowe nie są niezależne (np. Zazwyczaj wiele pomiarów danych na pacjenta w danych, brak ładowania początkowego lub pomiary podziału walidacji krzyżowej nie pacjenci ).

Jeszcze bardziej denerwujące są dokumenty, które dają tak błędne wyniki weryfikacji krzyżowej oraz niezależny zestaw testów, który wykazuje nadmiernie optymistyczne podejście do weryfikacji krzyżowej, ale ani jednego słowa, że ​​projekt weryfikacji krzyżowej jest nieprawidłowy ...

(Byłbym bardzo szczęśliwy, gdyby te same dane zostały przedstawione „wiemy, że krzyżowa walidacja powinna rozdzielić pacjentów, ale utknęliśmy w oprogramowaniu, które na to nie pozwala. Dlatego też przetestowaliśmy naprawdę niezależny zestaw pacjentów testowych „)

(Zdaję sobie również sprawę, że ładowanie początkowe = ponowne próbkowanie z zastępowaniem zwykle działa lepiej niż walidacja krzyżowa = ponowne próbkowanie bez zastępowania. Jednak w przypadku danych spektroskopowych (widma symulowane i nieco sztuczny układ modelu, ale rzeczywiste widma) stwierdziliśmy, że powtórzenie / iteracja weryfikacji krzyżowej i obecnie -of-bootstrap miał podobną ogólną niepewność; oob miał więcej stronniczości, ale mniej wariancji - w przypadku rewie, patrzę na to z bardzo pragmatycznego punktu widzenia: wielokrotne sprawdzanie poprawności krzyżowej w porównaniu z bootstrapem nie ma znaczenia, o ile wiele artykułów nie dzielą się na pacjentów ani nie zgłaszają / omawiają / wspominają o niepewności losowej z powodu ograniczonej wielkości próbki testowej).

Oprócz tego, że się myli, ma to również efekt uboczny, że ludzie, którzy dokonują prawidłowej walidacji, często muszą bronić, dlaczego ich wyniki są znacznie gorsze niż wszystkie inne wyniki w literaturze.

cbeleites
źródło
1
Nie jestem pewien, czy chciałeś to powiedzieć, ale „bootstrap” optymizmu jest jednym z najlepszych sposobów na walidację modelu, a jego próbki treningowe i testowe pokrywają się.
Frank Harrell,
1
@Frank Harrell - Nie jestem pewien, czy rozumiem. Być może trudność polega na tym, że w chemometrii „walidacja modelu predykcyjnego” zawsze dotyczy wydajności dla nowych, nieznanych przyszłych przypadków (na przykład: diagnozowanie nowych pacjentów). Cały czas używam metody „out-of-bootstrap” lub powtarzanej / powtarzanej weryfikacji krzyżowej. Czy możesz wyjaśnić, jaka jest korzyść z nakładania się zestawów testów i zestawów w porównaniu z podziałem na poziomie pacjenta (zakładam, że „nakładanie” oznacza dzielenie pomiarów, więc pomiary testowe i treningowe mogą należeć do tego samego pacjenta, zawsze mówiąc o modelu między pacjentami )?
cbeleites,
... I tak, na niektóre punkty walidacji modelu można odpowiedzieć bez dzielenia danych na odrębne przypadki testowe i szkoleniowe (np. Stabilność modelu pod względem współczynników). Ale już stabilność modelu wrt. prognozy powinny być mierzone przy użyciu nieznanych pacjentów (nieznane: nigdy nie pojawiły się w trakcie budowy modelu, w tym opartego na danych wstępnego przetwarzania uwzględniającego wszystkie przypadki). W rzeczywistości, w przypadku tradycyjnej oceny ilościowej w chemometrii, walidacja obejmuje etapy, które wymagają dalszych niezależnie mierzonych danych testowych: ...
cbeleites
dobra praktyka wymaga nieznanego operatora przyrządu, a jedną ważną cechą metody analitycznej, która ma zostać ustalona podczas walidacji, jest to, jak często kalibracja musi być wykonywana ponownie (lub pokazująca, że ​​dryf instrumentalny jest pomijalny przez pewien czas) - niektóre autorzy mówią nawet o „nadużyciu ponownego próbkowania”, które prowadzi do zaniedbania takich niezależnych zestawów testowych .
cbeleites,
1
Jeżeli sprzęt lub techniki pomiarowe wymagają walidacji, wymagana jest niezależna próbka. Jednak częstym błędem jest dzielenie danych w celu symulacji niezależnej weryfikacji. Jest to nadal wewnętrzna walidacja. Aby odpowiedzieć na pytanie @cbeleites powyżej, nakładające się próbki związane z ładowaniem będą skutkować dokładniejszymi szacunkami przyszłej wydajności modelu niż dzielenie danych w większości zestawów danych, które można zobaczyć. Miałem słabo dzielone dane przy n = 17 000 i częstości zdarzeń 0,30.
Frank Harrell,
4

Używanie „danych” w szczególnym znaczeniu. Dane SĄ, nigdy nie są.

Piotr
źródło
2
Prawdopodobnie francuski statystyk;)
Stéphane Laurent
9
Muszę przyznać, że ostatnio zrezygnowałem z mnogiego wykorzystywania danych po tym, jak trzymałem się ich przez około 10 lat. Generalnie piszę dla odbiorców nietechnicznych i martwiłem się, że wpadam w pompatyczność. Wydaje się, że APA nadal ma ścisłą interpretację tego, że jest liczbą mnogą, ale co ciekawe, Królewskie Towarzystwo Statystyczne nie wydaje się mieć konkretnego zdania. Tutaj jest ciekawa dyskusja: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley
1
Nie mówię po angielsku, ale problem z takimi dziełami jak „dane” lub „media” w liczbie pojedynczej polega na tym, że angielski pożyczył wiele innych łacińskich słów i musisz używać wszystkich łacińskich słów w spójny sposób. Co dalej? „Curricula is” czy „Curriculum are”? „Medium are”? Jeśli „dane” są w języku łacińskim, to są w liczbie mnogiej. Koniec dyskusji. Bez względu na to, ile osób chce to teraz zignorować.
Fran
Może niewłaściwie go używam, ale przełączam się między liczbą pojedynczą a liczbą mnogą w zależności od kontekstu.
StatsStudent,
Używając słowa „dane” z powodu niskiego poziomu i tylko w szczególnych okolicznościach, myślę, że słowo „dane” jest czymś równoważnym słowu „paczka” w odniesieniu do „wilków”. Z pewnością dopuszczalne jest użycie słowa „paczka” w liczbie pojedynczej do opisania wielu wilków. Słowo „Dane” stopniowo zmienia się w swój własny rzeczownik zbiorowy ...
Robert de Graaf,
3

Zdecydowanie dla mnie jest przypisywanie przyczyny bez odpowiedniej analizy przyczynowej lub w przypadku niewłaściwego wnioskowania przyczynowego.

Nienawidzę go również, gdy nie zwraca się uwagi na sposób obsługi brakujących danych. Widzę tak wiele prac, w których autorzy po prostu przeprowadzają pełną analizę przypadków i nie wspominają, czy wyniki można uogólnić na populację z brakującymi wartościami lub jak populacja z brakującymi wartościami może systematycznie różnić się od populacji z pełnymi danymi.

StatsStudent
źródło
3

Używanie Microsoft Word zamiast LaTeX.

Simone
źródło