Jakie niewłaściwie użyte warunki statystyczne warto poprawić?

103

Statystyka jest wszędzie; powszechne stosowanie terminów statystycznych jest jednak często niejasne.

Terminy prawdopodobieństwo i szanse są używane zamiennie w świeckim języku angielskim, pomimo ich dobrze zdefiniowanych i różnych wyrażeń matematycznych.

Nie oddzielanie terminu prawdopodobieństwo od rutynowo dezorientuje lekarzy próbujących oszacować prawdopodobieństwo raka piersi, biorąc pod uwagę pozytywną mammografię: „Och, jakie bzdury. Nie mogę tego zrobić Powinieneś przetestować moją córkę; ona studiuje medycynę. ”

Równie rozpowszechnione jest użycie korelacji zamiast asocjacji . Lub korelacja sugerująca związek przyczynowy .

W słynnym dokumencie Al Gore An Inconvenient Truth slajd ilustruje korelację rdzenia lodowego i temperatur, pozostawiając bardziej techniczne prace, aby udowodnić związek przyczynowy z dyskusją:WSPÓŁ2)

wprowadź opis zdjęcia tutaj

PYTANIE: Które terminy statystyczne stwarzają problemy interpretacyjne, gdy są stosowane bez matematycznego rygoru, i dlatego warto je poprawić?

Antoni Parellada
źródło
4
Szanse w stosunku do prawdopodobieństwa wśród laików nie wydają mi się problemem, ponieważ laicy i tak by ich nie obliczali, po prostu powiedzieliby, że wartości są niskie lub wysokie, a oba są bezpośrednio skorelowane.
Mehrdad
@ Mehrdad Zgadzam się. Właściwie o to chodzi ... czy jest jakakolwiek sytuacja, w której niewłaściwe użycie tych słów, które zostały przyjęte i sprecyzowane w ramach statystyki, powoduje problemy. Na przykład jasne jest, że za zmianami klimatu kryje się wiele badań, ale w wielu innych okolicznościach można wysunąć fałszywe twierdzenia, sugerując, że korelacja równa się przyczynowości. W przypadku szans i prawdopodobieństw oba mogą być przeliczone na inne, więc jedynym ryzykiem jest niezrozumienie twoich zakładów.
Antoni Parellada,
3
@ Mehrdad Sprawa o kursach jest interesująca, ale myślę, że jest bardziej skomplikowana niż na pierwszy rzut oka. Kiedy laicy mówią o kursach, zwykle mają na myśli szanse hazardowe, które bardzo często wyrażane są w formacie „odds against”. Tak więc w systemie, który zna większość ludzi, wysoka wartość szans wiąże się z niskim prawdopodobieństwem, chociaż dla statystyki wysokie szanse wiążą się z wysokim prawdopodobieństwem. Jest to zatem dość dojrzałe do nieporozumień: patrz także nasz post na Odds Made Simple
Silverfish
5
Prawdopodobnie warto pamiętać, że niektóre z tych terminów istniały wcześniej w języku angielskim (o luźnym znaczeniu), zanim zostały zawłaszczone przez statystyki i określone rygorystyczne definicje techniczne. To trochę kondensujące, żeby wziąć słowo, zmienić znaczenie, a potem biegać dookoła obwiniając innych za niewłaściwe użycie go, gdy tylko używają go ze starszą, nietechniczną definicją.
RM
Naprawdę nie lubię nazywać testów „post hoc”, nawet jeśli są one planowane z wyprzedzeniem. Myślę, że zaczęło się to od jakiegoś pakietu statystyk, ale teraz jest wszechobecne.
David Lane

Odpowiedzi:

101

Walka ze zmianami języka może być daremna. Ale

parametr nie oznacza zmiennej

W statystyce klasycznej, która w tym przypadku zaczyna się dokładnie od RA Fishera, który jako pierwszy użył tego terminu, parametr jest nieznaną stałą do oszacowania, powiedzmy średnią populacji lub korelację. W matematyce istnieją powiązane, ale nie identyczne znaczenia, tak jak w przypadku parametrycznej krzywej. W wielu naukach parametr jest po prostu innym słowem dla miary (sam termin gęsty o znaczeniu matematycznym), właściwości lub zmiennej, na przykład długości lub przewodności lub porowatości lub cnoty, w zależności od przypadku. Oczywiście długość lub cnota osoby nie jest znana przed jej pomiarem. ale statystycznie nastawieni ludzie mogą być oszołomieni jego użyciem do zestawu takich pomiarów. W zwykłym lub wulgarnym języku, parametry(prawie zawsze w liczbie mnogiej) często oznaczają granice czegoś, powiedzmy osobisty związek lub politykę polityczną, być może wynikającą z oryginalnego pomieszania z obwodem . Z dużym prawdopodobieństwem należy przypuszczać, że Bayesianie będą mówić za siebie na podstawie własnych zwyczajów (wdzięczny ukłon w stronę @conjugateprior).

przekrzywiony nie oznacza stronniczości

Od stulecia lub dłużej skośność ma specyficzne znaczenie statystyczne odnoszące się do asymetrii rozkładów, czy to ocenianych graficznie, mierzonych numerycznie, czy też zakładanych teoretycznie jako kwestia wiary lub nadziei. O wiele dłużej, a przynajmniej tak można się domyślać, stronniczość oznaczała średnio błąd, który - o ile znamy prawdę, czyli prawdziwą lub poprawną wartość - można określić ilościowo jako błąd systematyczny. Przekrzywiony w zwykłym języku ma powszechne poczucie bycia wypaczonym lub zniekształconym, a zatem niepoprawnym, niewłaściwym, a więc także stronniczym. Ten zmysł (o ile zauważyłem, dopiero niedawno) zaczął filtrować z powrotem do dyskusji statystycznych, tak że pierwotne znaczenie skośności grozi rozmyciem lub zanurzeniem.

korelacja nie oznacza zgody

Korelacja przyciągnęła kilka precyzyjnych zmysłów w statystykach, które mają wspólną ideę idealnej relacji dwuwymiarowej w pewnym precyzyjnym sensie: wiodącymi przypadkami są relacje liniowe i monotoniczne. Często jest rozcieńczany, nawet w dyskusjach statystycznych, aby oznaczać prawie każdy rodzaj związku lub stowarzyszenia. Korelacja niekoniecznie oznacza zgodność: zatem oznacza korelację Pearsona lub , o ile , ale zgodność wymaga bardzo ścisłego warunku .y=za+bx1-1b0y=xza=0,b=1

niepowtarzalny nie oznacza wyraźny

Dość często mówi się o odrębnych wartościach danych jako unikalnych , ale unikatowe jest idealnie lepiej zachowane, ponieważ znaczenie występuje tylko raz. Domyślam się, że część winy wynika z narzędzia uniksowego [sic] uniqi jego naśladowców, które redukują ewentualnie powtarzane wartości do zbioru, w którym każda wartość jest naprawdę unikalna. Użycie, w tym przypadku, łączy dane wejściowe i wyjściowe programu. (I odwrotnie, jeśli mówimy o duplikatach danych, rzadko ograniczamy się do dubletów, które występują dokładnie dwa razy. Termin ten się powielamiałoby większy sens językowy, ale uprzedzono go o celową replikację kontroli w eksperymentach; wynikowe wartości odpowiedzi zwykle nie są wcale identyczne, co jest w dużej mierze istotne).

próbki są rzadko powtarzane

W statystyce próbka zawiera kilka wartości, a powtarzanie próbkowania jest wysoką zaletą teoretyczną, ale jedną rzadko praktykowaną, z wyjątkiem symulacji, która jest naszym zwyczajowym terminem na wszelkiego rodzaju fałszowanie in silico . W wielu naukach próbka jest pojedynczym przedmiotem, składającym się z bryły, kawałka lub kupy wody, gleby, osadu, skały, krwi, tkanek lub innych substancji, od atrakcyjnych przez łagodne do obrzydliwych; nie jest wyjątkowy, pobieranie wielu próbek może być niezbędne do każdej poważnej analizy. Tutaj terminologia każdej dziedziny ma dla ludzi doskonały sens, ale czasem potrzebne jest tłumaczenie.

błąd zwykle nie oznacza błędu; jak zauważył Harold Jeffreys, pierwotny zmysł jest nieobliczalny, a nie błędny.

Niemniej jednak powinniśmy uważać na własne grzechy lub dziwactwa terminologiczne:

regresja nie idzie wstecz

stacjonarne nie oznacza nieruchome lub nieruchome

zaufanie nie ma nic wspólnego z czyimś stanem psychicznym lub psychicznym

znaczenie ma czasem tylko codzienne znaczenie

dokładny jest często terminem honorowym, odnoszącym się do dogodnego rozwiązania lub obliczenia, a nie odpowiedniego do problemu

prawym przekrzywionymi Rozkłady wielu wyglądać przekrzywiony w lewo i odwrotnie

lognormal jest tzw ponieważ jest to normalne potęgowania

ale lognormal jest bardziej normalny niż normalny

Gaussa została odkryta przez De Moivre

Poisson nie odkrył Poissona , nie mówiąc już o regresji Poissona

bootstrap nie pomoże ci w obuwiu

jackknife nie tnie

kurtoza nie jest stanem medycznym

wykresy łodyg i liści nie odnoszą się do roślin

zmienna manekin jest przydatna, nie bezcelowe lub głupi

kto na Ziemi (lub gdziekolwiek indziej) uważa, że heteroscedastyczność jest naprawdę lepszym terminem niż nierówna zmienność ?

solidny ma teraz co najmniej dwa główne znaczenia techniczne dla różnych grup, z których żadna nie powstrzymuje jego częstego używania, nawet w dyskusjach technicznych, co oznacza jedynie coś w rodzaju „zapewniono, że zachowuje się dobrze”

IV ma teraz co najmniej dwa główne znaczenia dla różnych grup

czynnik ma teraz co najmniej dwa główne znaczenia dla różnych grup

normalizacja i standaryzacja mają niepoliczalnie wiele znaczeń (naprawdę musimy tam znormalizować)

kontra opis wykresu oznacza zmienną pionową w porównaniu do zmiennej poziomej , chyba że oznacza to odwrotnie

oraz (wreszcie, żeby nadać frazę) statystyki mają co najmniej trzy główne znaczenia.

Uwagi:

  1. Mimo wszelkich przeciwnych poglądów uważam, że jest to dobre, poważne pytanie.

  2. Zmiana mody. Już w XX wieku wydaje się, że wiele osób (bez nazwisk, bez wiertła do paczki, ale można wymienić Karla Pearsona) mogło wymyślić terminy, sięgając po greckie i łacińskie słowniki. (Byłoby niesprawiedliwie nie uznawać go za spisek .) Ale RA Fisher porwał wiele wcześniej istniejących angielskich słów, w tym wariancję , wystarczalność , skuteczność i prawdopodobieństwo . Niedawno JW Tukey był mistrzem w posługiwaniu się domowymi terminami, ale niewielu powinno odczuwać niepokój, że nie doszło do załamań i złych uczynków .

  3. Jeden komentarz opiera się na wspomnieniu „Życie jest [...] multiplikatywne, a nie addytywne: rozkład normalny dziennika jest bardziej normalny niż normalny”. Zaraz. 1962. Zasady pracy Bloggins. W Good, IJ (red.) Naukowiec spekuluje: antologię częściowo upieczonych pomysłów. Londyn: Heinemann, 212-213 (cytat na str. 213).

Nick Cox
źródło
Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
whuber
Heteroscedastyczność całkowicie kołysze kocię ! „Nierówna zmienność?” [Phuagh!]) (+1 bardzo dobrze w przeciwnym razie;)
Alexis
1
Warto dodać, że testy regresji są często stosowane w kontekście tworzenia oprogramowania, gdzie, ogólnie rzecz biorąc, odnosi się to do cofania się.
Konrad
@Konrad Interesujące, ale potem (popraw mnie, jeśli się mylę) (a) to nie byłoby niewłaściwe użycie tego słowa i (b) słowo tam nie ma sensu statystycznego.
Nick Cox
@NickCox Correct.
Konrad
33

Niektóre rzeczy, które spotykam:

  1. Traktowanie poziomu istotności i prawdopodobieństwa pokrycia CI jako wymienne, tak że ludzie w końcu robią takie rzeczy, jak mówienie o „95% istotności”.

    [Gorzej jest, gdy ludzie, którzy popełniają takie błędy, wskazują na notatki z wykładów - a nawet podręcznik - na poparcie tego; innymi słowy, błąd nie jest ich, ale jest stokrotnie lub wiele razy krotszy, a co gorsza, nawet jeśli dobrze to rozumieją, może i tak trzeba powtórzyć błąd, aby zaliczyć przedmiot.]

  2. Istnieje również powszechna tendencja do myślenia, że ​​„znaczenie” istnieje w jakiś sposób poza konkretną hipotezą / pytaniem (co prowadzi do pytań typu „czy moje dane są znaczące” bez wyraźnego pojęcia, jakie pytanie należy rozwiązać). [Powiązanym problemem jest „jaki test powinienem zastosować dla tych danych?” jak gdyby były to dane - a nie pytanie, na które należy odpowiedzieć - to podstawa wyboru analizy. (Chociaż „projekt” badania może mieć wpływ na zastosowane testy, ważniejsze jest pytanie dotyczące zainteresowania - na przykład, jeśli masz trzy grupy, ale twoje pytanie dotyczy tylko porównania dwóch z nich, fakt, że masz trzy, nie zmusza cię do analizy jednokierunkowej, a nie do prostego porównania dwóch grup zainteresowań ... o ile wybór analizy nie wynika z tego, co pokazują dane. Idealnie byłoby zaplanować pytania i analizy, zanim będziesz mieć dane, zamiast rzucać analizą danych i zobaczyć, jakie drążki, jak się wydaje, pytania do analizy post-hoc - w tym „jaki test powinienem zastosować dla tych danych?” - zwykle prowadzą do.)

  3. Sporadyczna tendencja do określania uzupełnienia wartości p jako pewnego rodzaju „pewności” lub „prawdopodobieństwa” alternatywy.

  4. „dane nieparametryczne”; kolejna niestety znaleziona w kilku książkach (i, niestety, w artykule, który ma na celu naprawienie typowego błędu), ta pojawia się tak często, że znajduje się na mojej krótkiej liście automatycznie generowanych komentarzy (która rozpoczyna się: „Dane nie są parametryczne ani nieparametryczne; są to przymiotniki, które dotyczą modeli lub technik ... ”) (dzięki Nick Cox za przypomnienie mi o tym szczególnym błędzie)

    Zwykle zamierzone są „nienormalne dane”, ale parametryczne nie implikują normalności, a posiadanie przybliżonej normalności nie oznacza, że ​​potrzebujemy procedur parametrycznych. Podobnie, nienormalność nie oznacza, że ​​potrzebujemy procedur nieparametrycznych. Czasami zamierzone są „dane porządkowe” lub „dane nominalne”, ale w żadnym przypadku nie oznacza to, że modele skończone parametryczne są nieodpowiednie.

  5. Powszechna tendencja do błędnego rozumienia znaczenia „liniowy” w „modelu liniowym” w sposób, który byłby niezgodny z użyciem terminu „liniowy” w „uogólnionym modelu liniowym”. Jest to częściowo wina sposobu, w jaki używamy terminologii.

  6. łączenie skośności średniej-minus-mediany ze skośnością w trzeciej chwili i łączenie zera w jednym (lub nawet w obu) z symetrią. Oba błędy są często spotykane w podstawowych tekstach szeroko używanych w niektórych konkretnych obszarach zastosowań. [Występuje błąd związany z traktowaniem zerowej skośności i zerowej kurtozy jako sugerującej normalność]

  7. ten jest tak powszechny, że coraz trudniej jest nazwać go błędem (częściowo z powodu wysiłków konkretnego programu) - nazywając nadmierną kurtozę po prostu „kurtozą”; błąd prawie na pewno prowadzi do problemów komunikacyjnych.

Glen_b
źródło
2
+1. Chcę przypomnieć o groteskowych „danych nieparametrycznych”, które lepiej pasują do tej listy niż do mojej. Nadmiar kurtozy to brzydkie rodzeństwo surowej kurtozy.
Nick Cox,
@Nick Dzięki, siedzę tutaj i wpatruję się w moją listę, mówiąc: „jest coś, co naprawdę mnie denerwuje, o czym wiem, że należy tutaj”. To jest to.
Glen_b
3
Kolejnym jest „test statystyczny” rozszerzony tak szeroko, że staje się pytaniem otwierającym: jaki test powinienem zastosować do moich danych? często w przekonaniu, że pojawi się jedna odpowiedź w postaci „Student's t”, „Mann-Whitney” lub „chi-square”. Na którą zazwyczaj udzielam odpowiedzi, być może wcale, albo musimy uważnie przyjrzeć się twoim danym i przedyskutować twoje prawdziwe pytanie, zanim będziemy mogli o tym pomyśleć.
Nick Cox,
@nick Ten jest ściśle związany z moim przedmiotem 2. Zastanawiam się, czy istnieje dobry sposób, aby go rozwinąć.
Glen_b
1
Obawiam się, że wiele tekstów statystycznych (jak się wydaje) zachęca do takiego myślenia.
Nick Cox,
31

Dane ” są w liczbie mnogiej . (Liczba pojedyncza to „punkt odniesienia”).

gung
źródło
2
Czy naprawdę mówisz o danych? Częściej ten punkt ... ta wartość ... ta obserwacja ... przynajmniej tutaj.
Nick Cox
5
Dane to także wyjątkowy android, który asymiluje dane o ludziach, których obserwuje, by dojść do wniosków danych opartych na danych, często z zabawnym skutkiem.
Matthew Drury
2
Będziesz musiał przejść długą drogę, aby to usłyszeć.
Nick Cox
5
Liczba mnoga danych nie wymaga jedynie zgody czasownika - „dane są” raczej niż „dane”, ale z kwantyfikatorów - „wielu danych” zamiast „dużo danych”, „mniej danych”, a nie „mniej danych”. Tak niewielu osobom udaje się zachować spójność, że wydaje się to straconą przyczyną.
Scortchi
5
Pomimo lat (nie dziesięcioleci) walki z tym (moi latynoscy nauczyciele byliby zadowoleni), doszedłem do poglądu podobnego do @ Scortchi. Staram się jednak używać słowa „ zbiór danych” tam, gdzie to możliwe, szczególnie pod wpływem praktyk StataCorp. To rozwiązuje niektóre trudności.
Nick Cox,
14

Chociaż nie jest to termin ściśle statystyczny, głosuję za wycofaniem endogeniczności . Używa się go w odniesieniu do wszystkiego, od odwrotnego związku przyczynowego, przez mylące, do selekcji i stronniczości, gdy wszyscy ludzie naprawdę chcą to powiedzieć: „Nie zidentyfikowano tego efektu”.

sprzężonyprior
źródło
Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
Glen_b
13

„Regresja w kierunku średniej” nie oznacza, że ​​jeśli zaobserwujemy pewną liczbę próbek iid poniżej wartości oczekiwanej, następne próbki iid prawdopodobnie będą wyższe niż wartość oczekiwana.

Benjamin Lindqvist
źródło
3
+1 To jest ważne. Znani ludzie byli przez to wyjątkowo zdezorientowani. Na przykład popularna książka Petera Bernsteina o analizie ryzyka, Przeciw bogom . charakteryzuje regresję do średniej na wiele różnych sposobów - żadna z nich nie jest poprawna.
whuber
10

Procent vs. Punkty procentowe : Jeśli coś wzrośnie z 1% do 2%, wzrośnie o 100%. Lub: można powiedzieć, że wzrosła o 1 punkt procentowy.

Stwierdzenie, że wzrost wyniósł 1%, jest bardzo mylące.

SPhadler
źródło
7

Uważam, że skróty, które nie są wyraźnie wskazane, stanowią prawdziwy problem. Na przykład widzę takie rzeczy jak GLM i nigdzie nie jest określone, czy oznacza to ogólny model liniowy czy uogólniony model liniowy. Kiedyś zwykle mogę dowiedzieć się, do czego się odwołuje po wkopaniu w kontekst, ale uważam, że jest to szczególnie kłopotliwe dla studentów, którzy dopiero zaczynają uczyć się o modelach statystycznych.

Innym tego przykładem jest IV. Czy to oznacza zmienną instrumentalną czy zmienną niezależną? Często nie jest to jasne, dopóki nie przyjrzysz się kontekstowi.

Coś jeszcze, co widzę w zamieszaniu, to „moderator” i „interakcja”. Również populacja (jak w populacji ogółem) i populacja zainteresowań wydają się wprowadzać nowych studentów w błąd, chyba że zostanie to wyjaśnione bardzo wyraźnie.

StatsStudent
źródło
5
Widziałem również, że GLM zwykło oznaczać „globalne modele liniowe” przez niektórych z tłumu uczących się maszyn.
Żeby
1
Częściowo popieram tę odpowiedź / obserwację. Myślę, że „uogólniony” (cokolwiek to jest) powinien być lepiej skracany do Gz, a nie do G. Tak jak GzLM (uogólniony model liniowy).
ttnphns
2
@ttnphns: niektórzy z nas piszą uogólnione za pomocą s
Henry
Jestem ciekawa @ttnphns, jakiej części tej odpowiedzi nie popierasz i dlaczego? Jest całkiem możliwe, że coś źle zrozumiałem, więc chciałbym dowiedzieć się więcej, jeśli masz coś do zaoferowania. Dzięki!
StatsStudent
1
Huh, myślałem, że IV oznacza in vitro. = P
Mehrdad
7

Ten, który jest powszechny w codziennym języku:

średni

Dla przeciętnej osoby (gorzka ironia w pełni zamierzona) średnia, mediana, tryb i oczekiwana wartość czegokolwiek wydają się takie same. Mają naturalną tendencję do dokonywania oceny punktowej, przy nieświadomym i niepodważalnym założeniu, że istnieje podstawowy rozkład normalny. I równie nieświadome założenie bardzo małej wariancji. Wiara w to, że takie oszacowanie 1) istnieje i 2) będzie dla nich bardzo przydatna, ponieważ mogą one potraktować to jako praktycznie pewien predyktor, jest tak zakorzeniona, że ​​w zasadzie nie można ich przekonać inaczej.

Na przykład w prawdziwym świecie spróbuj porozmawiać z kucharzem, który pyta „jaki jest ziemniak średniej wielkości”, absolutnie pewien, że jeśli podasz mu liczbę, będzie mógł użyć tego do dowolnego przepisu, który określa liczbę ziemniaków i niech za każdym razem wyjdzie idealnie. I złość się na ciebie za próbę powiedzenia mu „nie ma takiej liczby”. Niestety dzieje się tak w sytuacjach, w których stawka jest znacznie wyższa niż przy zupie.

rumtscho
źródło
3
Myślę, że to trochę przesadzone. Na przykład miliony, jeśli nie miliardy ludzi, wydają się mieć niewielkie trudności ze średnimi w sporcie.
Nick Cox,
1
@NickCox z pewnością zależy od kontekstu. Zwłaszcza obliczenie średniej arytmetycznej dla danych jest bezproblemowe. Widziałem problemy szczególnie w opisanych przeze mnie przypadkach, w których potrzebują one oszacowania punktowego i zakładają, że „średnia” jest bardzo precyzyjna. Zakładają też, że tę „średnią” należy obliczać jako średnią, ale jeśli poprosisz ich o wyjaśnienie, co oznaczają przez średnią, z grubsza opisują tryb.
rumtscho
@rumtscho, masz rację. Joe Average może myśleć o średniej jako o trybie lub typowym.
Mark L. Stone,
Kiedy ludzie mówią o „średnich” cenach domów w Wielkiej Brytanii, nie mogą mi powiedzieć, jakiego rodzaju średniej używają lub czy kontury zostały wykluczone.
Ian Ringrose
1
Nie ma nic, co mówi, że nie można obliczyć dla rozkładów multimodalnych, to po prostu tak często, że nie jest to najlepsza miara do opisu rozkładu. Nie jestem też pewien, czy to zrobi wspaniałe rzeczy, gdy obraz statystyczny powie wszystkim: „Nie wiesz, co znaczy słowo średnia!”. a następnie, gdy wskazują na definicję słownika, odpowiadamy „Cóż, słownik też nie!”
Cliff AB,
7

Kurtosis nie mierzy „szczytowości”.

Z4|Z||Z|

* Odejmij 3 lub nie; do tego momentu nie ma znaczenia.

Peter Westfall
źródło
1
ZZ
1
Miałem profesora statystyk grecko-cypryjskich, który nauczył nas, że leptokurtic po grecku oznacza „wąskie ramiona” lub „garbaty”. Zatem rozkład lepeptyczny (np. Laplace'a lub podwójny wykładniczy) ma mniejszą masę niż Gaussa (o jednakowej wariancji) w obszarach „barkowych” - i odpowiednio większą masę w obszarach głowy i ogona. I odwrotnie, rozkład platykurtyczny (np. Mundur) ma większą masę w ramionach i mniejszą masę w obszarach głowy i ogona, niż normalnie.
Mico
2
Dobre wyjaśnienie tych słów, ale w rzeczywistości nie mają one nic wspólnego ze statystyką kurtozy, którą opracował Pearson. Pearson pomylił się, ale używając tych wymyślnie brzmiących greckich słów sprawił, że inni myśleli, że popadł w coś głębokiego. Jego błąd, niestety, zaszkodził edukacji statystycznej i umiejętności czytania od ponad 100 lat. Zobacz mój artykuł na temat spiczastych („lepto”) rozkładów, w których kurtoza jest mała, oraz rozkładów płaskich („płytowych”), w których kurtoza jest prawie nieskończona. Kurtoza Pearsona nie mówi nic o „lepto” lub „płatkach”. ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall
5

Liniowy oznacza:

  • y=za+bxy=za+bx+dox2)y=zaxb

  • y=miza+bx1+miza+bxy=za+bx+xmax(x-θ,0)

  • yt=za+byt-1+doxyt-yt-1=za+b(yt-1-xt-x)+do(xt-xt-1)+rext-1

yxza,b,do,reθ

Alexis
źródło
5

Pytanie dotyczyło użycia terminów statystycznych, które powinniśmy DOKONAĆ, aby je poprawić. Poprawiam użycie przez moje tysiącletnie dzieci terminu „losowy”, aby oznaczać rzeczy, które są przeciwieństwem losowości od 10 lat. Biorąc pod uwagę, ilu moich stażystów ma trudności z wytworzeniem losowej próbki danych, która jest rzeczywiście losowa, co zdarzyło się jeszcze przed użyciem tego słowa, zaciemnianie tego terminu w codziennym slangu jest kryzysem.

Z OnlineSlangDictionary:

Definition of random


random

adjective
  • nieoczekiwany i zaskakujący.
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • nieoczekiwanie świetne.
    The party was totally random.
    
SASmom
źródło
4

Jest już zbyt wiele wspaniałych przykładów, o których wspominali Glen i Nick ... niewiele zostało!

Niektóre aspekty regresji

  • termin błędu i resztkowe (to jest trochę zabawne, gdy ludzie są dumni, ich resztki nie są powiązane z regresorami)

  • przewidywanie i szacowanie (czy powinniśmy nawet przestać robić rozróżnienie, jeśli chodzi o przewidywane efekty losowe?)

  • przedział prognozy / prognozy a przedział ufności. Myślę, że istnieje prawdopodobieństwo> 0,5, aby podać niewłaściwy.

  • regresor (kolumna w macierzy obliczeniowej) w porównaniu z zmienną kowariancyjną i in. Zwłaszcza w sytuacjach technicznych, w których rozróżnienie jest niezbędne, wiele osób (w tym ja) ma tendencję do nieprecyzyjności.

Michael M.
źródło
Przepraszam, jestem zdezorientowany. Czy istnieje różnica między prognozowaniem a szacowaniem? Czy mógłbyś również wyjaśnić więcej na temat dwóch ostatnich punktów? Dzięki!
yuqian
3

Zwłaszcza w środowiskach ubezpieczeniowych powszechne jest stosowanie wariancji w odniesieniu do jakiejkolwiek różnicy, a nie średniej kwadratowych różnic między każdym punktem danych a średnią zestawu danych.

klarnecista
źródło
6
Ja również spotkałem się z wariancją używaną w tym innym znaczeniu, ale zauważ, że wariancja była istniejącym angielskim słowem, kiedy RA Fisher porwał ją w tym celu w 1918 roku. Więc to jest inne zastosowanie; statystyczni ludzie nie mogą rościć sobie prawa własności do prawdziwego znaczenia.
Nick Cox
3

Bayesian

Uczniowie, którzy się tego nauczą, mogą nie mieć problemów z określeniem, czy coś „wygląda” na bayesowski, ale poproś ich o rozwiązanie problemu z częstym i bayesowskim podejściem i prawdopodobnie się nie uda.

Z mojego doświadczenia wynika, że ​​uczniowie uczą się, że jest to tylko filozoficzna różnica, bez konkretnego przykładu, który pokazuje, że ten sam problem jest atakowany za pomocą obu podejść.

Teraz zapytaj ich, dlaczego ktoś może tak często przyjmować takie podejście; są szanse, że ich najlepszym wytłumaczeniem byłoby coś takiego: „w dawnych czasach komputery nie istniały…”

Mehrdad
źródło
Czy mógłbyś podzielić się z tobą wyjaśnieniem, dlaczego ktoś może przyjąć podejście częste? Dzięki!
yuqian
4
@yuqian: Tak. Dla mnie ważne jest to, że robisz to, gdy chcesz, aby ludzie obiektywnie się z tobą zgadzali. Podejścia bayesowskie wymagają wcześniejszych rozkładów, które są z natury subiektywne, aw rzeczywistych problemach nie ma jednego obiektywnie poprawnego wcześniejszego ... co oznacza, że ​​dwie osoby mogą obliczyć różne odpowiedzi dla tego samego problemu w zależności od tego, co według nich powinny być ich przełożeni. Przy częstym podejściu nie ma takiej dwuznaczności, a to pozwala obiektywnie porównać swoje wyniki z wynikami innych.
Mehrdad
2

Ryzyko

Ryzyko nie oznacza prawdopodobieństwa

Ryzyko to suma kosztów wszystkich wyników, każdy z tych kosztów pomnożony przez prawdopodobieństwo ich wystąpienia.

Ryzyko jest zwykle porównywane z nagrodą, którą jest zysk, który chcemy osiągnąć.

Oto jeden przykład: How Deadly Is Your Kilowatt . Tutaj ryzyko - liczba zmarłych osób dla różnych źródeł energii - jest porównywane z nagrodą - terawatogodzin energii wytwarzanej przez te źródła energii.

Na przykład: ryzyko związane z energią jądrową nie jest prawdopodobieństwem krachu; jest to prawdopodobieństwo, że nastąpi krach, pomnożone przez liczbę umierających z niego osób, zsumowane z liczbą osób umierających z powodu normalnych operacji pomnożone przez prawdopodobieństwo, że operacje pozostaną normalne.

Michael Karnerfors
źródło
4
„Ryzyko” nie ma powszechnie przyjętej standardowej definicji. Ale „suma kosztów [strat] wszystkich wyników, każdy z tych kosztów [strat] pomnożony przez prawdopodobieństwo ich wystąpienia” jest definicją oczekiwanego kosztu [straty]. Z drugiej strony ryzyko ogólnie odnosi się do (niekorzystnych) odchyleń od oczekiwanej straty. Zatem twoja definicja to oczekiwanie, podczas gdy myślę, że typowe definicje ryzyka dotyczą rozproszenia.
A. Webb
Na przykład, kiedy kupujemy ubezpieczenie, celem jest zmniejszenie ryzyka (zmniejszenie wpływu nieoczekiwanych zdarzeń), ale rzeczywiste oczekiwane koszty są wyższe dla ubezpieczonego, przy czym różnicą są wydatki i zyski ubezpieczyciela. Ekstremalne straty w ogonie zostały zamienione na bardziej stabilny koszt premii.
A. Webb
3
@ A.Webb FWIW, (międzynarodowe) Towarzystwo Analizy Ryzyka definiuje ryzyko jako „Potencjał realizacji niepożądanych, niekorzystnych konsekwencji dla życia ludzkiego, zdrowia, mienia lub środowiska; szacowanie ryzyka jest zwykle oparte na oczekiwanej wartości warunkowe prawdopodobieństwo wystąpienia zdarzenia razy razy konsekwencja zdarzenia, biorąc pod uwagę, że miało ono miejsce. ” Dlatego wydaje się, że ryzyko ma standardową definicję - i pokazuje, że masz rację, odróżniając ryzyko od sposobu jego oszacowania lub pomiaru.
whuber
1
Ryzyko, stosowane przez epidemiologów, oznacza również częstość występowania prawdopodobieństwa zdarzenia lub .P.(ZA)/t
Alexis
2

Naprawione efekty i efekty losowe mogą oznaczać różne rzeczy dla różnych osób. W ekonometrii ustalone efekty są w rzeczywistości losowe, a kiedy się nad tym zastanowić, każdy efekt w statystykach jest losowy, więc nazywanie czegoś losowego nie daje żadnych znaczących dodatkowych informacji.

mpiktas
źródło