My, statystycy, używamy wielu słów w nieco inny sposób niż wszyscy inni. Powoduje to wiele problemów, gdy uczymy lub wyjaśniamy, co robimy. Rozpocznę listę (a teraz dodam kilka definicji, w komentarzach):
- Moc to zdolność do prawidłowego odrzucenia fałszywej hipotezy zerowej. Zwykle oznacza to prawidłowe powiedzenie „coś się dzieje”.
- Odchylenie - statystyka jest tendencyjna, jeśli systematycznie różni się od parametru populacji z nią związanego.
- Istotność - wyniki są statystycznie znaczące przy pewnym procencie (często 5%) w następującej sytuacji: Jeśli populacja, z której pochodzi próbka, ma prawdziwy efekt 0, statystyka przynajmniej tak ekstremalna jak ta, która została pobrana z próbki, wystąpiłaby tylko 5% czasu.
- Interakcja - Dwie niezależne zmienne oddziałują na siebie, jeśli zależność między zmienną zależną i jedną zmienną niezależną jest różna na różnych poziomach drugiej zmiennej niezależnej
Ale musi być wiele innych!
terminology
communication
Peter Flom
źródło
źródło
Odpowiedzi:
„Znaczący” jest największym, na jaki się natknąłem, ponieważ ma zarówno wspólne znaczenie w języku angielskim, jak i to znaczenie pojawi się w dyskusji na temat wyników badań. Nawet w tym samym zdaniu, w którym mówiłem o wynikach statystycznych, mieszam słowo „znaczący”, co znaczy „ważny”.
W ten sposób leży szaleństwo.
źródło
Sugerowałbym dodanie Linear do listy.
Zadałem pytanie na temat matematyki. SE o tym, co ja, inżynier, uważam za liniowe minimalne oszacowanie błędu średniej kwadratowej zmiennej losowej biorąc pod uwagę wartość zmiennej losowej (co oznacza oszacowanie jako przy wyborze i tak, aby zminimalizować ), i dał częściową odpowiedź. Jeden z komentarzy do pytania brzmiałX Y Y = X + b b e [ ( Y - X - b ) 2 ]Y X Y Y^= a X+ b za b E[(Y−aX−b)2]
„Nie jestem zadowolony z twojego języka, ponieważ obawiam się, że ten sposób użycia słowa„ liniowy ”może przyczynić się do powszechnego nieporozumienia, że przyczyną regresji liniowej w tak zwanej regresji liniowej jest dopasowanie do linii. Ludzie, którzy tak myślą to jest mylące, gdy statystyk nalega, aby wykonać regresję liniową, gdy pasuje do paraboli lub fali sinusoidalnej itp. ”
Co więc oznacza regresja liniowa dla statystyki?
źródło
prawdopodobieństwo
Wydaje mi się, że większość problemów związanych z interpretacją testów hipotez i przedziałów ufności wynika z zastosowania bayesowskiej definicji „prawdopodobieństwa”, gdy procedura opiera się na częstości. Na przykład wartość p będąca prawdopodobieństwem, hipoteza zerowa jest prawdziwa, gdy AFAICS nie można powiązać prawdopodobieństwa z prawdą konkretnej hipotezy w ustawieniach częstych.
źródło
"Pewność siebie"
Bardzo trudno jest odwieść nie-statystyków, że ich przedział ufności nie jest (bezpośrednio) stwierdzeniem o wiarygodności różnych wartości parametrów.
Aby mieć pewność, w technicznym znaczeniu tego terminu, musimy wyobrazić sobie zestaw powtarzających się eksperymentów, z których każde oblicza interwał w określony wcześniej sposób. Aby uzyskać 95% przedział ufności, 95% tych zastosowań formuły zatrzyma odpowiedni parametr będący przedmiotem zainteresowania.
(Istnieją oczywiście sytuacje, w których oba pojęcia zgadzają się, w przybliżeniu lub dokładnie. Ale ogólnie nie, a zgoda numeryczna nie usuwa problemu niewłaściwego używania terminów technicznych.)
źródło
„Prawdopodobieństwo” - jest synonimem „prawdopodobieństwa” w mowie codziennej, ale w statystyce ma szczególne znaczenie: jest funkcją parametrów modelu statystycznego, którego wartością jest prawdopodobieństwo zaobserwowanego wyniku przy założeniu, że parametry są równe wartościom parametrów.
źródło
Błąd.
W statystyce „błąd” to odchylenie rzeczywistej wartości danych od prognozy modelu.
W rzeczywistości błędem jest spllng mstake lub inny goof.
źródło
"Wnioskowanie"
Inną ważną częścią wnioskowania jest centralne twierdzenie graniczne. Kiedy zdasz sobie sprawę, że po prostu pobierasz próbki z populacji - chociaż próbkowanie to kolejna skomplikowana funkcja podobna do wnioskowania - wtedy rozumiesz, że nawet jeśli średnia próbki zawiera jedną wartość, ta wartość niekoniecznie jest taka sama jak w populacji .
Być może dość luźno zrozumiałem twoje pytanie, ale kiedy ktoś zrozumie wnioskowanie lub różnice między próbką a populacją, wtedy cała statystyka się przed nimi otwiera.
źródło
Dla nas (a przynajmniej dla mnie) „losowość” „próby” sugeruje, że jest ona reprezentatywna dla „populacji”.
Dla innych „losowość” czasami oznacza, że dana osoba / rzecz jest niezwykła.
źródło
Myślę, że należy rozróżnić pojęcia wprowadzające w błąd społeczeństwo i terminy wprowadzające w błąd statystyki. Powyższe sugestie są w większości terminami dobrze zrozumiałymi przez statystyków i (być może) źle zrozumianymi przez społeczeństwo. Chciałbym dodać do listy niektóre terminy, których nie rozumieją statystycy:
źródło
Ekologiczny, powszechnie używany w odniesieniu do systemów biologicznych, ale także błąd statystyczny. Z Wikipedii:
Błąd ekologiczny (lub błąd ekologiczny wnioskowania) jest błędem w interpretacji danych statystycznych w badaniu ekologicznym, przy czym wnioski dotyczące natury konkretnych osób oparte są wyłącznie na zbiorczych statystykach zebranych dla grupy, do której te osoby należą. Ten błąd zakłada, że poszczególni członkowie grupy mają średnią charakterystykę całej grupy.
źródło
Czy „ankieta” jest rodzajem matematyki („próbkowanie ankiety”) czy kartką papieru („kwestionariusz”)?
Nie przeprowadziłem ankiety na ten temat, ale podejrzewam, że znaczna część opinii publicznej uważa „ankietę” za tę drugą. Podejrzewam ponadto, że nie myślą o tym pierwszym.
źródło
„Obciążenia”, „współczynniki” i „ciężary”; gdy mówimy o głównej analizie składników.
Zazwyczaj ludzie używają ich doraźnie, używając ich zamiennie, bez uprzedniego wyraźnego zdefiniowania ich znaczenia, i faktycznie natknąłem się na dokumenty, które odnoszą się do „ładowania wektorów”, a czasami same komputery osobiste, a czasami „ciężary” skojarzony z określonym komputerem.
Prawdopodobnie fakt, że doskonałe odniesienie Jollifee do głównych składników stwierdza na końcu rozdziału 1.1 „Niektórzy autorzy rozróżniają pojęcia„ obciążenia ”i„ współczynniki ”w zależności od zastosowanego ograniczenia normalizacji, ale będą one używane zamiennie w tej książce”. po prostu sprawili, że ludzie myśleli, że mają darmową przepustkę, aby mieszać i dopasowywać terminologię do swoich upodobań ...
źródło
Model addytywny. Nadal nie jestem pewien, co to znaczy. Myślę, że odnosi się do modelu bez warunków interakcji. Ale potem natknę się na artykuł, w którym używają go w odniesieniu do czegoś innego, tj. Modelu splajnu.
źródło
Jednym z terminów, które uważam za najbardziej mylące, jest „matryca zamieszania”. Oczywiście sam termin jest mylący, a nie pojęcie.
Próbowałem prześledzić historię tego terminu i to też jest dość interesujące. Macierz nieporozumień została wynaleziona w 1904 r. Przez ( http://en.wikipedia.org/wiki/Karl_Pearson ). Użył terminu http://en.wikipedia.org/wiki/Contingency_table . Pojawił się w Karl Pearson, FRS (1904). Wkłady matematyczne w teorię ewolucji (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf
Podczas War World 2 https: //en.wikipedia.org/wiki/Detection_theory zostało opracowane jako badanie związków między bodźcem a reakcją. Zastosowano tam macierz zamieszania.
Ze względu na teorię wykrywania termin ten został użyty jako psychologia. Stamtąd termin osiągnął uczenie maszynowe.
Wydaje się, że chociaż koncepcja ta została wymyślona w statystyce, która jest bardzo powiązana z uczeniem maszynowym, osiągnęła uczenie maszynowe po objeździe w ciągu 100 lat.
Aby zapoznać się z niektórymi odniesieniami do użycia tego terminu, zobacz: Jakie jest pochodzenie terminu macierz pomieszania?
źródło
"Statystyka"
Dla ogółu społeczeństwa, namiastkę „teraz mam cię okłamać i mówić w sposób, którego nie rozumiesz”.
źródło