- Jeśli spojrzysz na Wolfram Alpha
- Lub ta strona w Wikipedii Lista krajów według mediany wieku
Wyraźnie mediana wydaje się być statystyką wyboru, jeśli chodzi o wiek.
Nie jestem w stanie wyjaśnić sobie, dlaczego średnia arytmetyczna byłaby gorszą statystyką. Dlaczego tak jest
Pierwotnie opublikowane tutaj, ponieważ nie wiedziałem, że ta strona istnieje.
Odpowiedzi:
Moim zdaniem statystyki nie zapewniają dobrej odpowiedzi na to pytanie. Na przykład średnia może być istotna w badaniach śmiertelności, ale wiek nie jest tak łatwy do zmierzenia, jak mogłoby się wydawać. Na przykład ludzie starsi, analfabeci i ludzie w niektórych krajach trzeciego świata zaokrąglają swój wiek do wielokrotności 5 lub 10.
Mediana jest bardziej odporna na takie błędy niż średnia. Ponadto mediana wieku wynosi zwykle 20–40 lat, ale ludzie mogą żyć do 100 lat i więcej (rosnąca i zauważalna część populacji współczesnych krajów żyje obecnie powyżej 100). Ludzie w tym wieku mają od 1,5 do 4 razy większy wpływ na średnią niż na medianę w porównaniu z bardzo młodymi ludźmi. Dlatego mediana jest nieco bardziej aktualną statystyką dotyczącą rozkładu wieku w danym kraju i jest nieco bardziej niezależna od wskaźników umieralności i oczekiwanej długości życia niż średnia.
Wreszcie, mediana daje nam nieco lepszy obraz samego rozkładu wieku: na przykład, gdy zobaczysz medianę 35 lat, wiesz, że połowa populacji ma więcej niż 35 lat i możesz wywnioskować pewne rzeczy na temat liczby urodzeń, wiek rodziców i tak dalej; ale jeśli średnia wynosi 35, nie można powiedzieć tyle, ponieważ na 35 może mieć wpływ na przykład duża wypukłość populacji w wieku 70 lat lub może różnica w populacji w pewnym przedziale wiekowym z powodu starej wojny lub epidemii.
Zatem ze względów demograficznych, a nie statystycznych, mediana wydaje się bardziej godna roli wartości zbiorczej w podsumowaniu wieku stosunkowo dużych populacji.
źródło
John dał ci dobrą odpowiedź na siostrzanej stronie.
Jednym z aspektów, o którym nie wspomniał wyraźnie, jest solidność: mediana jako miara centralnej lokalizacji jest lepsza niż średnia, ponieważ ma wyższy punkt podziału (o 50%), podczas gdy średnia ma bardzo niską wartość 0 (szczegóły na stronie wikipedia ).
Intuicyjnie oznacza to, że indywidualne złe obserwacje nie wypaczają mediany, podczas gdy robią to dla średniej.
źródło
Oto moja odpowiedź opublikowana po raz pierwszy na stronie math.stackexchange:
Mediana jest tym, co wielu ludzi myśli o tym, gdy mówią „wredni”. Łatwiej jest zinterpretować medianę: połowa populacji jest powyżej tego wieku, a połowa poniżej. Podła jest nieco bardziej subtelna.
Ludzie szukają symetrii, a czasem narzucają symetrię, gdy jej nie ma. Rozkład wieku w populacji nie jest symetryczny, więc średnia może wprowadzać w błąd. Rozkład wieku jest czymś w rodzaju piramidy. Dużo dzieci, niewiele starszych. (A przynajmniej tak jest w stanie ustalonym. W Stanach Zjednoczonych pokolenie wyżu demograficznego po II wojnie światowej zniekształciło ten rozkład w miarę starzenia się. Niektórzy nazywali to „kwadratem piramidy”, ponieważ wyżu demograficznego stworzyli góra piramidy szersza niż w przeszłości.)
W przypadku rozkładu asymetrycznego lepiej jest zgłosić medianę, ponieważ jest to symetryczna statystyka. Mediana jest symetryczna, nawet jeśli rozkład próbkowania nie jest.
źródło
Dlaczego siekiera jest lepsza niż siekiera?
To podobne do twojego pytania. Po prostu mają na myśli i robią różne rzeczy. Jeśli ktoś mówi o medianach, to historia, którą próbują przekazać, model, który próbują zastosować do danych, jest inna niż ta ze środkami.
źródło
Konkretnym przykładem jest średni wiek w Kongo (DRK) i Japonii. Jeden jest zniszczony przez wojnę domową, drugi jest dobrze rozwinięty ze starzejącą się populacją. Średnia nie jest szczególnie interesująca dla porównania jabłek z jabłkami. Z drugiej strony, mediana może być informacyjna jako miara tendencji centralnej, ponieważ z definicji mamy ją w połowie powyżej, w połowie poniżej. Artykuł w Wikipedii na temat piramid populacji może być pouczający (zobacz sekcje na temat wypukłości wśród młodzieży, starzenia się populacji).
źródło
Repozytoria danych dotyczących zdrowia publicznego w Stanach Zjednoczonych zmierzają w kierunku AGE w formacie pięcioletnim, w związku z wpływem przepisów HIPAA dotyczących celowego zaślepiania i maskowania danych ze względu na prywatność.
Biorąc pod uwagę to wyzwanie w stosunku do tego, co było w przeszłości (przed HIPAA), na dość skalowalnym poziomie elementu danych miary w oparciu o różnicę między datą urodzenia a datą śmierci, może być konieczne ponowne rozważenie AGE jako zmiennej skalowej, która może być parametrycznie opisane w ogóle w zestawach danych zdrowia publicznego, na korzyść modeli opisujących AGE w sposób nieparametryczny, jako porządkowy poziom miary. Wiem, że może się to wydawać „przesadne” dla wielu frakcji w społeczności informatycznej biomedycyny, ale ten pomysł może mieć pewne zalety pod względem „interpretacji”, jak opisano w komentarzach powyżej.
A co z całą siłą analityczną dostępną dla podejść nieparametrycznych? Tak, to prawda, że każdy z nas prawie uniwersalnie spróbuje zastosować techniki GLM (ogólny model liniowy) do zmiennej, która przedstawia się nam w rozkładach, które zachowują się tak, jak AGE.
Jednocześnie należy wziąć pod uwagę kształt tego rozkładu i sposób, w jaki kształt ten jest określany przez oddziaływanie wielowymiarowe oddziaływań na wielowymiarowe centroidy i centroidy podgrupy obecne w rozkładzie. Co zrobić z tymi bardzo złożonymi zestawami danych?
Gdy element danych nie spełnia „założeń modelu”, stopniowo skanujemy (powiedziałem w poprzek, a nie w dół; powinniśmy być pracodawcami metody równych szans, każde narzędzie pochodzi z fabryki w formie zgodnej z regułami funkcji) lista innych możliwych modeli, aby znaleźć te, które „nie zawiodą” testów założeń.
W obecnym formacie zestawów danych dotyczących zdrowia publicznego naprawdę potrzebujemy (jako społeczności wizualizacji danych), aby opracować bardziej standardowy model obsługi AGE w odstępach pięcioletnich (5YI). Mój głos za wizualizacją danych AGE (biorąc pod uwagę nowy format 5YI) to użycie histogramów oraz wykresów pudełkowych i wąsów. Tak, oznacza to medianę. (Gra słów nie przeznaczona!)
Czasami obraz jest naprawdę wart tysiąca słów, a streszczenie to streszczenie tysiąca słów. Wykres pudełka i wąsów pokazuje „kształt” rozkładu jako znaczącą symboliczną reprezentację histogramu na niemal kultowym poziomie rozdzielczości. Porównanie rozkładów pięcioletnich przyrostów wieku poprzez pokazanie wykresów „bok obok siebie” i wykresów wąsów, w których można natychmiast wizualnie porównać wzorce od 75 do 50 (mediana) do niższych 25 nilitów, stanowiłby elegancki „uniwersalny standard” do porównywania wieku świat. Dla tych z nas, którzy nadal cieszą się dreszczem reprezentacji danych za pomocą mechaniki tekstowej wyświetlania tabelarycznego, diagram „łodyga i liść” może być również przydatny, gdy zostanie zastosowany jako animowany element grafiki wizualnej w „wykresie przebiegu w czasie”
WIEK osiągnął pełnoletność. Należy go dalej badać za pomocą bardziej wydajnych algorytmów obliczeniowych, które są już dostępne.
źródło
Nie sądzę, aby istniał dobry opisowy powód, aby wybrać medianę zamiast średniej dla rozkładów wieku. Jedną z praktycznych cech jest porównywanie zgłaszanych danych.
Wiele krajów zgłasza swoją populację w pięcioletnich przedziałach wiekowych, przy czym najwyższy zespół jest otwarty. Powoduje to pewne trudności w obliczaniu średniej z przedziałów, szczególnie dla najmłodszych przedziałów (dotkniętych wskaźnikami śmiertelności niemowląt), górnego „przedziału” (jaka jest średnia z przedziału 80+?) I najbliższych górnych przedziałów ( średnia każdego przedziału jest zwykle niższa niż środek).
O wiele łatwiej jest oszacować medianę interpolując w przedziale mediany, często przybliżając ją, zakładając płaski lub trapezowy rozkład wieku w tym przedziale (współczynniki zgonów w wielu krajach są stosunkowo niskie w pobliżu mediany wieku, co jest bardziej rozsądnym przybliżeniem niż to jest dla młodych i starszych).
źródło
Aby udzielić użytecznej odpowiedzi, pierwotne pytanie wymaga znajomości pytania. Innymi słowy: „Dlaczego potrzebujesz jakiejś podsumowującej statystyki porównującej rozkład wiekowy w różnych krajach?” Mediana może być najbardziej przydatna w przypadku niektórych pytań. Średnia może być najbardziej przydatna dla innych. I prawdopodobnie istnieją pytania, w których „procent powyżej (lub poniżej) określonego wieku” byłby najbardziej przydatną statystyką.
źródło
Dostajesz tutaj dobre odpowiedzi, ale pozwól mi dodać tylko 2 centy. Pracuję w farmakometrii, która zajmuje się takimi rzeczami, jak objętość krwi, szybkość eliminacji, podstawowy poziom efektu leku, maksymalny efekt leku i podobne parametry.
Rozróżniamy zmienne, które mogą przyjmować dowolne wartości plus lub minus, w porównaniu do wartości, które mogą być tylko dodatnie. Przykładem zmiennej, która może przyjmować dowolną wartość, plus lub minus, może być efekt leku, który może być dodatni, zero lub ujemny. Przykładem zmiennej, która może być realistycznie dodatnia, jest objętość krwi lub szybkość eliminacji leku.
Modelujemy te rzeczy za pomocą rozkładów, które są zwykle normalne lub logarytmiczne, normalne dla dowolnych wartości i logarytmiczne dla jedynych dodatnich. Liczba logarytmiczna to liczba E doprowadzona do potęgi normalnie dystrybuowanej liczby, i dlatego może być tylko dodatnia.
W przypadku zmiennej o rozkładzie normalnym mediana, średnia i tryb mają tę samą liczbę, więc nie ma znaczenia, którego użyjesz. Jednak w przypadku zmiennej o rozkładzie logarytmicznym średnia jest większa zarówno od mediany, jak i od trybu, więc nie jest bardzo przydatna. W rzeczywistości, mediana jest tam, gdzie leży norma leżąca u podstaw, więc jest to znacznie bardziej atrakcyjna miara.
Ponieważ wiek (przypuszczalnie) nigdy nie może być ujemny, rozkład logarytmiczny jest prawdopodobnie lepszym jego opisem niż normalny, więc mediana (E do średniej podstawowej normy) jest bardziej przydatna.
źródło
Nauczono mnie, że mediana powinna być stosowana z zakresem i średnią ze standardowym odchyleniem. Kiedy mówimy o wieku, myślę, że zasięg jest bardziej odpowiednim sposobem wyrażenia spreadu i dla większości jest łatwiejszy do zrozumienia. Na przykład w badanej populacji średni wiek wynosił 53 lata (SD 5,4) lub mediana wieku 48 lat (zakres 23–77). Z tego powodu wolałbym raczej zastosować medianę niż średnią. Byłbym jednak bardzo zainteresowany tym, co powiedziałby statystyk lub specjalista ds. Statystyk o używaniu średniej z zakresem? Widzę to dość często w pracach naukowych.
źródło
Odpowiedź Johna na math.stackexchange można postrzegać następująco:
Zauważ, że kiedy mówi, że jest więcej niemowląt niż dorosłych, zasadniczo sugeruje, że rozkład wieku jest rozkładem wypaczonym.
źródło
Mam nadzieję, że na średni wiek będą miały wpływ wartości odstające w twoim zbiorze danych, podczas gdy nie jest tak w przypadku wieku średniego. Weźmy przykład zbioru danych zaszczepionych pacjentów: 1,2,3,4,4,5,6,6,6,78 lat średnia wynosiłaby: 11,5, a mediana wieku tych pacjentów to 4,5. na ten średni wiek wpłynęła wartość odstająca 78. mediana jest najlepsza w przypadku zestawów danych o przekrzywionym rozkładzie.
źródło
Z pewnością w przypadku analizy demograficznej uważam, że zarówno średnia, jak i mediana byłyby cenne, szczególnie w połączeniu ze sobą, jeśli szukasz wartości odstających lub obszarów wzrostu, które mogą być błędnie oznaczone przez samą medianę. W społecznościach z dużą społecznością emerytalną lub w rejonie z eksplozją wskaźnika urodzeń sama mediana może nie dać pełnego obrazu, i to właśnie w tym przypadku średnia może być bardzo przydatna.
źródło