Wyjaśnianie średniej, mediany, trybu w terminach laika

10

Jak wyjaśniłbyś pojęcie średniej, mediany i trybu listy liczb i dlaczego są one ważne dla kogoś, kto ma tylko podstawowe umiejętności arytmetyczne? Nie wspominając o skośności, CLT, tendencji centralnej, ich właściwościach statystycznych itp.

Wyjaśniłem komuś, że oznacza to szybki i nieprzyzwoity sposób na „podsumowanie” listy liczb. Ale patrząc wstecz, nie jest to zbyt pouczające.

Jakieś myśli lub przykłady ze świata rzeczywistego?

Zaniepokojony obywatel
źródło
Są „tendencją centralną”, czyli „najprawdopodobniej wynikiem” w różnych domenach. Intensywność, porządek i częstotliwość, w szczególności. Świat rzeczywisty ma również zmienność - więc rzeczy takie jak odchylenie standardowe, zakres międzykwartylowy (lub kwantylowy) i zakres intermodalny są również bardzo przydatne, ponieważ wskazują na „tendencję zmian” lub „typową zmienność wyników”.
EngrStudent
Możesz podać przykład, że maszyna generuje liczby losowo. Wszystkie liczby, które generuje, zbierasz na liście. Teraz chcesz zaprezentować go znajomym, nie cytując każdego numeru na liście. Dlatego szukasz środków, które pomogą ci to opisać. Średni / Mediana / Tryb to trzy podobne miary, które zapewniają wgląd w podstawowe właściwości maszyny.
Kevin Pei
@KevinPei Ale co w tym przypadku oznacza „znaczy”? Mean / Median / Mode nie wyjaśnia wiele w wymyślonym, samodzielnym przykładzie.
Concerned_Citizen
1
Znalezienie średniej jest problemem znalezienia punktu obrotu równoważącego huśtawkę po tym, jak dzieci (o tej samej masie) weszły na nią w dowolnej liczbie i na dowolnych pozycjach na belce. Znalezienie mediany jest tym samym zadaniem, mówi się, że tylko dzieci trzymają się mocno w dwóch pozycjach, po „tej” lub „tamtej stronie”.
ttnphns
Nie możesz tego wyjaśnić bez pojęcia dystrybucji. Mając tylko podstawowe umiejętności arytmetyczne, musisz rysować obrazy.
Aksakal

Odpowiedzi:

6

Dziękuję za to proste, ale dogłębne pytanie dotyczące podstawowych pojęć statystycznych dotyczących średniej, mediany i trybu. Istnieje kilka wspaniałych metod / demonstracji służących wyjaśnieniu i uchwyceniu intuicyjnego - a nie arytmetycznego - zrozumienia tych pojęć, ale niestety nie są one powszechnie znane (lub nauczane w szkole, o ile mi wiadomo).

Oznaczać:

1. Punkt równowagi: Średni jako punkt podparcia

Najlepszym sposobem na zrozumienie koncepcji jest myślenie o niej jako punkcie równowagi na jednolitym pręcie. Wyobraź sobie serię punktów danych, takich jak {1,1,1,3,3,6,7,10}. Jeżeli każdy z tych punktów jest oznaczony na jednolitym pręcie i w każdym punkcie są umieszczone równe ciężary (jak pokazano poniżej), to punkt podparcia musi być umieszczony na środku danych, aby pręt mógł się wyważyć.

wprowadź opis zdjęcia tutaj

Ta wizualna demonstracja prowadzi również do interpretacji arytmetycznej. Uzasadnieniem arytmetycznym jest to, że aby punkt równowagi był zrównoważony, całkowite ujemne odchylenie od średniej (po lewej stronie punktu podparcia) musi być równe całkowitemu dodatniemu odchyleniu od średniej (po prawej stronie). Stąd średnia działa jako punkt bilansujący w rozkładzie.

Ta grafika pozwala na natychmiastowe zrozumienie średniej, ponieważ odnosi się do rozkładu punktów danych. Inną właściwością średniej, która staje się łatwo widoczna z tej demonstracji, jest fakt, że średnia zawsze będzie znajdować się między wartościami minimalną i maksymalną w rozkładzie. Również wpływ wartości odstających można łatwo zrozumieć - że obecność wartości odstających spowodowałaby przesunięcie punktu równowagi, a zatem wpłynęłaby na średnią.

2. Wartość redystrybucji (sprawiedliwy udział)

Innym interesującym sposobem zrozumienia tego środka jest myślenie o nim jako o wartości redystrybucji . Interpretacja ta wymaga pewnego zrozumienia arytmetyki obliczania średniej, ale wykorzystuje jakość antropomorficzną - mianowicie socjalistyczną koncepcję redystrybucji - do intuicyjnego uchwycenia pojęcia średniej.

Obliczanie średniej polega na zsumowaniu wszystkich wartości w rozkładzie (zestawie wartości) i podzieleniu sumy przez liczbę punktów danych w rozkładzie.

x¯=(ja=1nxja)/n

Jednym ze sposobów zrozumienia uzasadnienia tego obliczenia jest myślenie o każdym punkcie danych jak o jabłku (lub innym zamiennym elemencie). Korzystając z tego samego przykładu co poprzednio, mamy osiem osób w naszej próbie: {1,1,1,3,3,3,6,7,10}. Pierwsza osoba ma jedno jabłko, druga osoba ma jedno jabłko i tak dalej. Teraz, jeśli ktoś chce redystrybuować liczbę jabłek, tak aby była „sprawiedliwa” dla wszystkich, można użyć do tego średniej dystrybucji. Innymi słowy, możesz dać każdemu cztery jabłka (tj. Wartość średnią), aby rozkład był sprawiedliwy / równy. Ta demonstracja zapewnia intuicyjne wyjaśnienie powyższej formuły: podzielenie sumy rozkładu przez liczbę punktów danych jest równoważne podzieleniu całego rozkładu równo na wszystkie punkty danych.

3. Visual Mnemonics

Poniższe wizualne mnemoniki zapewniają interpretację średniej w unikalny sposób:

wprowadź opis zdjęcia tutaj

Jest to mnemonik interpretacji wartości wyrównania średniej. Wysokość poprzeczki A jest średnią wysokości czterech liter.

wprowadź opis zdjęcia tutaj

Jest to kolejny mnemonik dla interpretacji punktu równowagi dla średniej. Pozycja punktu podparcia jest z grubsza średnią pozycji M, E i podwojonego N.

Mediana

Po zrozumieniu interpretacji średniej jako punktu równowagi na pręcie , medianę można zademonstrować poprzez rozszerzenie tego samego pomysłu: punktu równowagi na naszyjniku .

Zastąp pręt sznurkiem, ale zachowaj oznaczenia danych i wagi. Następnie na końcach przymocuj drugi sznur, dłuższy niż pierwszy, aby utworzyć pętlę [jak naszyjnik] i ułóż pętlę na dobrze nasmarowanym kole pasowym.

wprowadź opis zdjęcia tutaj

Załóżmy początkowo, że wagi są różne. Równowaga koła pasowego i pętli, gdy z każdej strony jest ta sama liczba obciążników. Innymi słowy, pętla „równoważy się”, gdy mediana jest najniższym punktem.

Zauważ, że jeśli jeden z obciążników zostanie przesunięty w górę pętli, tworząc wartość odstającą, pętla się nie porusza. Dowodzi to fizycznie zasady, że wartości odstające nie mają wpływu na medianę.

Tryb

Tryb jest prawdopodobnie najłatwiejszym do zrozumienia pojęciem, ponieważ obejmuje najbardziej podstawową operację matematyczną: liczenie. Fakt, że jest równy najczęściej występujących prowadzi punkt danych, aby skrót: „ M ost-często O ccurring D ata E lement”.

Tryb ten można również pomyśleć o najbardziej typowej wartości w zestawie. (Chociaż głębsze zrozumienie „typowego” doprowadziłoby do reprezentatywnej lub średniej wartości. Jednak właściwe jest zrównanie „typowego” z trybem opartym na bardzo dosłownym znaczeniu słowa „typowy”.)


Źródła:

  • Mediana jest punktem równowagi - Lynch, The College Mathematics Journal (2009)
  • Zapamiętywanie statystyk: nowe mnemoniki i motywacje - mniejsza, edukacja statystyczna, JSM (2011)
  • O wykorzystaniu Mnemoniki w nauczaniu statystyki - pomniejsze, statystyki i aplikacje wspomagane modelem, 6 (2), 151-160 (2011)
  • Co oznacza to? - Watier, Lamontagne and Chartier, Journal of Statistics Education, tom 19, nr 2 (2011)
  • Typowy? Pomysły dzieci i nauczycieli na temat średniej - Russell i Mokros, ICOTS 3 (1990) OGÓLNA REFERENCJA: http://www.amstat.org/publications/jse/v22n3/lesser.pdf
Vishal
źródło
Właśnie natknąłem się na ten artykuł, który rzuca nieco więcej światła na ten temat: priceonomics.com/how-the-average-triumphed-over-the-median
Vishal
1
Anonimowy użytkownik zasugerował również następujące ogólne odniesienie: amstat.org/publications/jse/v22n3/lesser.pdf
gung - Przywróć Monikę
3

Muszę się zastanawiać, czy twoje kryteria są możliwe do osiągnięcia, ponieważ wydaje się, że chcesz maksymalnej skuteczności i mocy wyjaśniającej przy minimalnych materiałach. Ale prosty przykład, taki jak

1 1 2 2 2 3 3 4 5 6 15

umożliwia natychmiastowe obliczenie trybu (2), mediany (3) i średniej (44/11) = 4, a zatem pokazuje, że mogą być różne.

Możesz następnie wyjaśnić, że idee o najczęstszej wartości, wartości w środku i średniej są różne. I wprowadzaj komplikacje

  1. zmiana wartości w celu pokazania trybu może być niejednoznaczna

  2. na przykładzie z parzystą liczbą wartości, aby wyjaśnić konwencję obliczania mediany

  3. różne wartości w ogonach, aby podkreślić, co dzieje się ze średnią, a także dlaczego i dlaczego nie może to być pożądane.

  4. przy użyciu prostszych przykładów, w których dwa lub trzy średnie, mediana, trybu pokrywają się.

Nie wspomniałem o głównej tendencji w moim nauczaniu, poza tym, że mówię, że jest to termin w różnych literaturach. Wolę rozmawiać o poziomie i sposobie jego kwantyfikacji. I odwrotnie, nie sądzę, aby jakakolwiek poważna analiza danych była możliwa, chyba że ludzie mają minimalne wyczucie skośności bardziej niż symetrię.

Nick Cox
źródło
Tak, dostosowanie wartości zmieni statystyki podsumowujące, ale co to znaczy „znaczy” samo w sobie?
Concerned_Citizen
1
1
Co to jest czerwony ? Nie zawsze musimy znać definicje, aby korzystać z pomysłów. Dobre zrozumienie czerwieni prawdopodobnie wymaga fizyki, fizjologii i psychologii, ale nigdy jej nie potrzebowałem. Wiem dużo o tym, jak działa środek, ale na jednym podstawowym poziomie jego definicja jest tylko formułą.
Nick Cox,
1
@NickCox bardzo uczciwy i bardzo prawdziwy. ale moje doświadczenie na studiach jest wciąż całkiem nowe i pamiętam zbyt wiele problemów, w których ślepo obliczałem odpowiedź, nie rozumiejąc, co
oblicziłem
1
@ssdecontrol To nigdy nie przestaje się dziać całkowicie ...
Nick Cox
3

Oto jak je wyjaśniam:

The (arytmetyczna) średnia jest punkt, który zajmuje cały zestaw danych do konta i osiada gdzieś „w środku”. Niech pomyślą o chmurze punktów lub kropli w przestrzeni: średnia jest środkiem masy tej chmury punktów.

Środkowa jest punktem, który ma „taką samą liczbę punktów wszystkich stron” (gdzie oczywiście pojęcie „stronie” nie jest dobrze zdefiniowane w 2+ wymiarach). Jest to kolejny rodzaj „środka”, a w pewnym sensie bardziej intuicyjny. Myśląc o tej samej kropli w kosmosie, jasne jest, że jeśli kropelka jest przekrzywiona, wówczas wartość zostanie przesunięta. Ale tę krzywiznę można osiągnąć na dwa sposoby: albo dodajesz więcej punktów w jednym obszarze, albo zwiększasz rozrzut punktów w tym obszarze. Jeśli zwiększysz rozrzut punktów w jednym obszarze bez zwiększania liczby punktów, wówczas mediana nadal będzie miała tę samą liczbę punktów „ze wszystkich stron” i nie będzie się przesuwać proporcjonalnie do średniej.

y=(1,2),3),4,5)y=(1,2),3),4,99)oznaczać(y)=mediana(y)oznaczać(y)>mediana(y). Ale najpierw zalecam geometryczne / wizualne objaśnienie „oparte na kroplach”: z mojego doświadczenia łatwiej jest zacząć od machającej ręką demonstracji graficznej, a następnie przejść do konkretnych przykładów zabawek. Uważam, że większość ludzi (w tym ja) nie jest naturalnie zorientowana na liczby, a rozpoczęcie od numerycznego wyjaśnienia jest receptą na zamieszanie. Zawsze możesz wrócić i uczyć później bardziej precyzyjnych definicji.

Tryb jest punkt, że jeśli punkty są losowo z tym blob, najprawdopodobniej pojawią (uznając, że jest to krówka ciągłego danych). Może to być, ale nie musi, znajdować się w pobliżu średniej lub mediany.

Po wyjaśnić te pojęcia, a następnie można przejść do bardziej demo „statystycznej wyglądające”:

próbny

Linia ciągła to średnia. Linia przerywana to mediana. Linia przerywana to tryb. Średnia reprezentuje pozycje punktów danych wzdłuż osi x, zaś mediana odzwierciedla tylko liczbę punktów danych po obu stronach. Tryb jest punktem największego prawdopodobieństwa, który różni się zarówno od średniej, jak i mediany.

Kod R:

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)
Shadowtalker
źródło
Dobre wyjaśnienia, ale tak naprawdę zakłada to znacznie więcej niż „podstawowe umiejętności arytmetyczne”: tutaj przywoływane jest myślenie geometryczne, mechanika elementarna, losowe próbkowanie, teoria prawdopodobieństwa (w tym funkcja gęstości). Jest to komentarz, który nie ma na celu obalenia krytyki, ponieważ uważam, że pytanie jest bardzo ważne.
Nick Cox,
@NickCox dobre punkty na pewno. Ale teraz, gdy o tym myślę, korzystam z nich, ponieważ z kolei można je wszystkie wyjaśnić bez matematyki (np. Wyjaśnienie ttnphns w komentarzach do pytania głównego), albo już są rozumiane intuicyjnie na pewnym poziomie przez wiele osób. Gęstość jest niewielka, ale nie sądzę, żebyś kiedykolwiek musiał tam iść
shadowtalker,
(@ttnphns: oznaczanie Cię na wypadek, gdybyś chciał ważyć. To nie pozwoli mi oznaczyć was oboje jednym komentarzem)
Shadowtalker
Gęstość nie jest tak zawiła. Większość ludzi powinna przywoływać gęstość z fizyki i gęstość zaludnienia z geografii lub po prostu wiedzę ogólną.
Nick Cox,
@NickCox Myślałem, że o to ci chodzi, odnosząc się do mechaniki elementarnej. Poza demonstracją gęstości nie widzę też potrzeby losowego próbkowania. Jeśli już, to wyobrażałem sobie, że punktem zaczepienia byłoby uspokojenie nietechnicznego studenta z ideą chmury punktów. Może weź to na czacie?
shadowtalker
2

Średni ”, „ mediana ” i „ tryb ” to „tendencja centralna”, czyli „najprawdopodobniej wynik” w różnych domenach. Wszystkie są „najlepszymi zakładami” w różnych „grach”.

Prawdopodobieństwo i statystyka to dziedzina, która została częściowo zbudowana przez hazardzistów ( link , link ). Kiedy idziesz na wyścigi konne lub pokerowy stół, chcesz poznać naukę, która pomoże ci wygrać. Oni też to zrobili i napisali o tym, więc nie musisz sam tego wymyślać.

W wyścigu konnym chcesz wybrać zwycięzcę. Nie masz informacji w przyszłości, ale znasz pewne informacje z przeszłości. Wiesz, jak szybko każdy koń biegł w ciągu ostatnich kilku wyścigów. Jeśli chcesz oszacować, jak szybko będą biegać w następnym wyścigu, możesz obliczyć i porównać średnią, czyli średnią, czasy wyścigów.

Inną centralną tendencją jest „mediana” - która jest centrum posortowanej listy. Co jeśli umieszczę okropną literówkę na liście czasów wyścigów, a wartość będzie 1000 razy dłuższa niż wszystkich innych. Zepsułoby to twoje szacunki. Nie możesz postawić na zwycięskiego konia. Jak sobie z tym poradzisz? Możesz ręcznie wyszukać tę jedną wartość lub użyć „mediany”.

Co jeśli grasz w karty, np. „ Blackjacka ” i próbujesz dowiedzieć się, czy potrzebujesz innej karty, biorąc pod uwagę poprzednie karty. Karta, której szukasz, nie jest 3,14, ponieważ liczby kart są liczbami całkowitymi. Jak ustalić, jaki jest twój najlepszy zakład, gdy „średnia” lub mediana nie ma znaczenia? W takim przypadku chcesz postawić na „tryb” - najbardziej prawdopodobną kartę, która wyjdzie ze stosu krupiera.

We wszystkich trzech przypadkach centralna tendencja jest po prostu innym sposobem na powiedzenie „najlepszy zakład”.

Jeśli chcesz wziąć pod uwagę nie tylko centralną tendencję w zakładach, to znaczy, jeśli chcesz obstawiać, aby móc zmniejszyć skutki przegranej przy maksymalizacji wygranych, musisz spojrzeć na „tendencje zmienności”. Rzeczy takie jak odchylenie standardowe, zakresy między kwantylami lub tryby alternatywne i ich częstotliwości są używane w celu zminimalizowania maksymalnych strat przy jednoczesnym zmaksymalizowaniu prawdopodobnych wygranych.

EngrStudent
źródło
0

Myślę, że warto wyjaśnić tę koncepcję, rozważając wiele środków, median i trybów. Te wartości same w sobie nie istnieją w próżni.

Na przykład oto, jak bym wyjaśnił.

Powiedzmy, że masz 2 skrzynki arbuzów (skrzynka 1 i 2). Jest uszczelniony, więc nie widać arbuzów w środku, a zatem nie znasz ich rozmiarów. Jednak znasz całkowitą masę arbuzów w każdej skrzyni i każda zawiera taką samą liczbę arbuzów. Na tej podstawie możesz obliczyć średnie wagi każdej skrzynki z arbuzami (M1 i M2).

Teraz, gdy masz dwie różne wartości średnie M1 i M2, możesz z grubsza porównać poszczególne treści. Jeśli M1> M2, wówczas losowo wybrane arbuzy ze skrzynki 1 mogą być prawdopodobnie cięższe niż te wybrane ze skrzynki 2.

Oczywiście, chciałbym komentować tę perspektywę.

Zaniepokojony obywatel
źródło