Jak wyjaśniłbyś pojęcie średniej, mediany i trybu listy liczb i dlaczego są one ważne dla kogoś, kto ma tylko podstawowe umiejętności arytmetyczne? Nie wspominając o skośności, CLT, tendencji centralnej, ich właściwościach statystycznych itp.
Wyjaśniłem komuś, że oznacza to szybki i nieprzyzwoity sposób na „podsumowanie” listy liczb. Ale patrząc wstecz, nie jest to zbyt pouczające.
Jakieś myśli lub przykłady ze świata rzeczywistego?
mean
descriptive-statistics
median
mode
Zaniepokojony obywatel
źródło
źródło
Odpowiedzi:
Dziękuję za to proste, ale dogłębne pytanie dotyczące podstawowych pojęć statystycznych dotyczących średniej, mediany i trybu. Istnieje kilka wspaniałych metod / demonstracji służących wyjaśnieniu i uchwyceniu intuicyjnego - a nie arytmetycznego - zrozumienia tych pojęć, ale niestety nie są one powszechnie znane (lub nauczane w szkole, o ile mi wiadomo).
Oznaczać:
1. Punkt równowagi: Średni jako punkt podparcia
Najlepszym sposobem na zrozumienie koncepcji jest myślenie o niej jako punkcie równowagi na jednolitym pręcie. Wyobraź sobie serię punktów danych, takich jak {1,1,1,3,3,6,7,10}. Jeżeli każdy z tych punktów jest oznaczony na jednolitym pręcie i w każdym punkcie są umieszczone równe ciężary (jak pokazano poniżej), to punkt podparcia musi być umieszczony na środku danych, aby pręt mógł się wyważyć.
Ta wizualna demonstracja prowadzi również do interpretacji arytmetycznej. Uzasadnieniem arytmetycznym jest to, że aby punkt równowagi był zrównoważony, całkowite ujemne odchylenie od średniej (po lewej stronie punktu podparcia) musi być równe całkowitemu dodatniemu odchyleniu od średniej (po prawej stronie). Stąd średnia działa jako punkt bilansujący w rozkładzie.
Ta grafika pozwala na natychmiastowe zrozumienie średniej, ponieważ odnosi się do rozkładu punktów danych. Inną właściwością średniej, która staje się łatwo widoczna z tej demonstracji, jest fakt, że średnia zawsze będzie znajdować się między wartościami minimalną i maksymalną w rozkładzie. Również wpływ wartości odstających można łatwo zrozumieć - że obecność wartości odstających spowodowałaby przesunięcie punktu równowagi, a zatem wpłynęłaby na średnią.
2. Wartość redystrybucji (sprawiedliwy udział)
Innym interesującym sposobem zrozumienia tego środka jest myślenie o nim jako o wartości redystrybucji . Interpretacja ta wymaga pewnego zrozumienia arytmetyki obliczania średniej, ale wykorzystuje jakość antropomorficzną - mianowicie socjalistyczną koncepcję redystrybucji - do intuicyjnego uchwycenia pojęcia średniej.
Obliczanie średniej polega na zsumowaniu wszystkich wartości w rozkładzie (zestawie wartości) i podzieleniu sumy przez liczbę punktów danych w rozkładzie.
Jednym ze sposobów zrozumienia uzasadnienia tego obliczenia jest myślenie o każdym punkcie danych jak o jabłku (lub innym zamiennym elemencie). Korzystając z tego samego przykładu co poprzednio, mamy osiem osób w naszej próbie: {1,1,1,3,3,3,6,7,10}. Pierwsza osoba ma jedno jabłko, druga osoba ma jedno jabłko i tak dalej. Teraz, jeśli ktoś chce redystrybuować liczbę jabłek, tak aby była „sprawiedliwa” dla wszystkich, można użyć do tego średniej dystrybucji. Innymi słowy, możesz dać każdemu cztery jabłka (tj. Wartość średnią), aby rozkład był sprawiedliwy / równy. Ta demonstracja zapewnia intuicyjne wyjaśnienie powyższej formuły: podzielenie sumy rozkładu przez liczbę punktów danych jest równoważne podzieleniu całego rozkładu równo na wszystkie punkty danych.
3. Visual Mnemonics
Poniższe wizualne mnemoniki zapewniają interpretację średniej w unikalny sposób:
Jest to mnemonik interpretacji wartości wyrównania średniej. Wysokość poprzeczki A jest średnią wysokości czterech liter.
Jest to kolejny mnemonik dla interpretacji punktu równowagi dla średniej. Pozycja punktu podparcia jest z grubsza średnią pozycji M, E i podwojonego N.
Mediana
Po zrozumieniu interpretacji średniej jako punktu równowagi na pręcie , medianę można zademonstrować poprzez rozszerzenie tego samego pomysłu: punktu równowagi na naszyjniku .
Zastąp pręt sznurkiem, ale zachowaj oznaczenia danych i wagi. Następnie na końcach przymocuj drugi sznur, dłuższy niż pierwszy, aby utworzyć pętlę [jak naszyjnik] i ułóż pętlę na dobrze nasmarowanym kole pasowym.
Załóżmy początkowo, że wagi są różne. Równowaga koła pasowego i pętli, gdy z każdej strony jest ta sama liczba obciążników. Innymi słowy, pętla „równoważy się”, gdy mediana jest najniższym punktem.
Zauważ, że jeśli jeden z obciążników zostanie przesunięty w górę pętli, tworząc wartość odstającą, pętla się nie porusza. Dowodzi to fizycznie zasady, że wartości odstające nie mają wpływu na medianę.
Tryb
Tryb jest prawdopodobnie najłatwiejszym do zrozumienia pojęciem, ponieważ obejmuje najbardziej podstawową operację matematyczną: liczenie. Fakt, że jest równy najczęściej występujących prowadzi punkt danych, aby skrót: „ M ost-często O ccurring D ata E lement”.
Tryb ten można również pomyśleć o najbardziej typowej wartości w zestawie. (Chociaż głębsze zrozumienie „typowego” doprowadziłoby do reprezentatywnej lub średniej wartości. Jednak właściwe jest zrównanie „typowego” z trybem opartym na bardzo dosłownym znaczeniu słowa „typowy”.)
Źródła:
źródło
Muszę się zastanawiać, czy twoje kryteria są możliwe do osiągnięcia, ponieważ wydaje się, że chcesz maksymalnej skuteczności i mocy wyjaśniającej przy minimalnych materiałach. Ale prosty przykład, taki jak
1 1 2 2 2 3 3 4 5 6 15
umożliwia natychmiastowe obliczenie trybu (2), mediany (3) i średniej (44/11) = 4, a zatem pokazuje, że mogą być różne.
Możesz następnie wyjaśnić, że idee o najczęstszej wartości, wartości w środku i średniej są różne. I wprowadzaj komplikacje
zmiana wartości w celu pokazania trybu może być niejednoznaczna
na przykładzie z parzystą liczbą wartości, aby wyjaśnić konwencję obliczania mediany
różne wartości w ogonach, aby podkreślić, co dzieje się ze średnią, a także dlaczego i dlaczego nie może to być pożądane.
przy użyciu prostszych przykładów, w których dwa lub trzy średnie, mediana, trybu pokrywają się.
Nie wspomniałem o głównej tendencji w moim nauczaniu, poza tym, że mówię, że jest to termin w różnych literaturach. Wolę rozmawiać o poziomie i sposobie jego kwantyfikacji. I odwrotnie, nie sądzę, aby jakakolwiek poważna analiza danych była możliwa, chyba że ludzie mają minimalne wyczucie skośności bardziej niż symetrię.
źródło
Oto jak je wyjaśniam:
The (arytmetyczna) średnia jest punkt, który zajmuje cały zestaw danych do konta i osiada gdzieś „w środku”. Niech pomyślą o chmurze punktów lub kropli w przestrzeni: średnia jest środkiem masy tej chmury punktów.
Środkowa jest punktem, który ma „taką samą liczbę punktów wszystkich stron” (gdzie oczywiście pojęcie „stronie” nie jest dobrze zdefiniowane w 2+ wymiarach). Jest to kolejny rodzaj „środka”, a w pewnym sensie bardziej intuicyjny. Myśląc o tej samej kropli w kosmosie, jasne jest, że jeśli kropelka jest przekrzywiona, wówczas wartość zostanie przesunięta. Ale tę krzywiznę można osiągnąć na dwa sposoby: albo dodajesz więcej punktów w jednym obszarze, albo zwiększasz rozrzut punktów w tym obszarze. Jeśli zwiększysz rozrzut punktów w jednym obszarze bez zwiększania liczby punktów, wówczas mediana nadal będzie miała tę samą liczbę punktów „ze wszystkich stron” i nie będzie się przesuwać proporcjonalnie do średniej.
Tryb jest punkt, że jeśli punkty są losowo z tym blob, najprawdopodobniej pojawią (uznając, że jest to krówka ciągłego danych). Może to być, ale nie musi, znajdować się w pobliżu średniej lub mediany.
Po wyjaśnić te pojęcia, a następnie można przejść do bardziej demo „statystycznej wyglądające”:
Linia ciągła to średnia. Linia przerywana to mediana. Linia przerywana to tryb. Średnia reprezentuje pozycje punktów danych wzdłuż osi x, zaś mediana odzwierciedla tylko liczbę punktów danych po obu stronach. Tryb jest punktem największego prawdopodobieństwa, który różni się zarówno od średniej, jak i mediany.
Kod R:
źródło
„ Średni ”, „ mediana ” i „ tryb ” to „tendencja centralna”, czyli „najprawdopodobniej wynik” w różnych domenach. Wszystkie są „najlepszymi zakładami” w różnych „grach”.
Prawdopodobieństwo i statystyka to dziedzina, która została częściowo zbudowana przez hazardzistów ( link , link ). Kiedy idziesz na wyścigi konne lub pokerowy stół, chcesz poznać naukę, która pomoże ci wygrać. Oni też to zrobili i napisali o tym, więc nie musisz sam tego wymyślać.
W wyścigu konnym chcesz wybrać zwycięzcę. Nie masz informacji w przyszłości, ale znasz pewne informacje z przeszłości. Wiesz, jak szybko każdy koń biegł w ciągu ostatnich kilku wyścigów. Jeśli chcesz oszacować, jak szybko będą biegać w następnym wyścigu, możesz obliczyć i porównać średnią, czyli średnią, czasy wyścigów.
Inną centralną tendencją jest „mediana” - która jest centrum posortowanej listy. Co jeśli umieszczę okropną literówkę na liście czasów wyścigów, a wartość będzie 1000 razy dłuższa niż wszystkich innych. Zepsułoby to twoje szacunki. Nie możesz postawić na zwycięskiego konia. Jak sobie z tym poradzisz? Możesz ręcznie wyszukać tę jedną wartość lub użyć „mediany”.
Co jeśli grasz w karty, np. „ Blackjacka ” i próbujesz dowiedzieć się, czy potrzebujesz innej karty, biorąc pod uwagę poprzednie karty. Karta, której szukasz, nie jest 3,14, ponieważ liczby kart są liczbami całkowitymi. Jak ustalić, jaki jest twój najlepszy zakład, gdy „średnia” lub mediana nie ma znaczenia? W takim przypadku chcesz postawić na „tryb” - najbardziej prawdopodobną kartę, która wyjdzie ze stosu krupiera.
We wszystkich trzech przypadkach centralna tendencja jest po prostu innym sposobem na powiedzenie „najlepszy zakład”.
Jeśli chcesz wziąć pod uwagę nie tylko centralną tendencję w zakładach, to znaczy, jeśli chcesz obstawiać, aby móc zmniejszyć skutki przegranej przy maksymalizacji wygranych, musisz spojrzeć na „tendencje zmienności”. Rzeczy takie jak odchylenie standardowe, zakresy między kwantylami lub tryby alternatywne i ich częstotliwości są używane w celu zminimalizowania maksymalnych strat przy jednoczesnym zmaksymalizowaniu prawdopodobnych wygranych.
źródło
Myślę, że warto wyjaśnić tę koncepcję, rozważając wiele środków, median i trybów. Te wartości same w sobie nie istnieją w próżni.
Na przykład oto, jak bym wyjaśnił.
Powiedzmy, że masz 2 skrzynki arbuzów (skrzynka 1 i 2). Jest uszczelniony, więc nie widać arbuzów w środku, a zatem nie znasz ich rozmiarów. Jednak znasz całkowitą masę arbuzów w każdej skrzyni i każda zawiera taką samą liczbę arbuzów. Na tej podstawie możesz obliczyć średnie wagi każdej skrzynki z arbuzami (M1 i M2).
Teraz, gdy masz dwie różne wartości średnie M1 i M2, możesz z grubsza porównać poszczególne treści. Jeśli M1> M2, wówczas losowo wybrane arbuzy ze skrzynki 1 mogą być prawdopodobnie cięższe niż te wybrane ze skrzynki 2.
Oczywiście, chciałbym komentować tę perspektywę.
źródło