Dlaczego średni wiek jest lepszą statystyką niż średni wiek?

41

alternatywny tekst

alternatywny tekst

Wyraźnie mediana wydaje się być statystyką wyboru, jeśli chodzi o wiek.

Nie jestem w stanie wyjaśnić sobie, dlaczego średnia arytmetyczna byłaby gorszą statystyką. Dlaczego tak jest

Pierwotnie opublikowane tutaj, ponieważ nie wiedziałem, że ta strona istnieje.

Lazer
źródło
4
Wygląda na to, że masz już rozsądną odpowiedź na innej stronie?
Shane
1
@Shane: Ale może różne witryny mają potencjał do zbierania różnych odpowiedzi z różnych punktów widzenia?
whuber

Odpowiedzi:

42

Moim zdaniem statystyki nie zapewniają dobrej odpowiedzi na to pytanie. Na przykład średnia może być istotna w badaniach śmiertelności, ale wiek nie jest tak łatwy do zmierzenia, jak mogłoby się wydawać. Na przykład ludzie starsi, analfabeci i ludzie w niektórych krajach trzeciego świata zaokrąglają swój wiek do wielokrotności 5 lub 10.

Mediana jest bardziej odporna na takie błędy niż średnia. Ponadto mediana wieku wynosi zwykle 20–40 lat, ale ludzie mogą żyć do 100 lat i więcej (rosnąca i zauważalna część populacji współczesnych krajów żyje obecnie powyżej 100). Ludzie w tym wieku mają od 1,5 do 4 razy większy wpływ na średnią niż na medianę w porównaniu z bardzo młodymi ludźmi. Dlatego mediana jest nieco bardziej aktualną statystyką dotyczącą rozkładu wieku w danym kraju i jest nieco bardziej niezależna od wskaźników umieralności i oczekiwanej długości życia niż średnia.

Wreszcie, mediana daje nam nieco lepszy obraz samego rozkładu wieku: na przykład, gdy zobaczysz medianę 35 lat, wiesz, że połowa populacji ma więcej niż 35 lat i możesz wywnioskować pewne rzeczy na temat liczby urodzeń, wiek rodziców i tak dalej; ale jeśli średnia wynosi 35, nie można powiedzieć tyle, ponieważ na 35 może mieć wpływ na przykład duża wypukłość populacji w wieku 70 lat lub może różnica w populacji w pewnym przedziale wiekowym z powodu starej wojny lub epidemii.

Zatem ze względów demograficznych, a nie statystycznych, mediana wydaje się bardziej godna roli wartości zbiorczej w podsumowaniu wieku stosunkowo dużych populacji.

Whuber
źródło
1
Myślę, że miałeś na myśli „Mediana jest bardziej odporna na takie błędy niż średnia”. Zgadzam się jednak z twoimi komentarzami i uważam, że amerykański spis powszechny zazwyczaj podaje mediany dla wielu kategorii w oficjalnych raportach (nie tylko wieku) z zasadniczo tych samych powodów. Dochód jest może nawet lepszym przykładem niż wiek do zilustrowania takich punktów.
Andy W
Zastąpiłeś fakt - średnia jest wrażliwa na wartości odstające / przekrzywione - na oświadczenie o wartości dotyczące preferencji dla mediany nad średnią. W efekcie argumentowałeś, że nie należy preferować średniej, ponieważ nie jest to mediana (podobnie jak ci, którzy twierdzą, że należy używać średniej tylko w rozkładach symetrycznych, tj. Gdy średnia i mediana są równe).
Alexis
1
@Alexis Nie podążam za twoją krytyką. Czy mógłbyś opracować? W końcu odpowiedź ta zapewnia coś więcej niż „fakt”: zawiera sporo z nich wraz z analizą ich konsekwencji. A konkretnie do jakiego „oświadczenia wartości” odwołujesz się?
whuber
Obawiam się, że faktyczne cechy średniej i mediany (np. Ta pierwsza jest wrażliwa na wartości odstające, tj. „Ludzie w tym wieku mają 1,5 do 4 razy większy wpływ na średnią niż na średnią w porównaniu z bardzo młodymi ludźmi”). przekładają się na wartości dotyczące ich wartości, a mianowicie „mediana daje nam nieco lepszy obraz tego, jak wygląda sam rozkład wieku”. To pierwsze jest faktem, a później wycena tego faktu. Moje obawy dotyczą przełączania między nimi. Więcej informacji: stats.stackexchange.com/questions/96371/…
Alexis
1
@Alexis Należy pamiętać, że to pytanie nie dotyczy zastosowania średniej lub mediany w ogóle, ale ich użyteczności w ocenie rozkładów wieku. Proszę zauważyć, że na samym początku moja odpowiedź potwierdza, że ​​nie ma panaceum: że środek jest użyteczny i odpowiedni do konkretnych celów. Nie sądzę, że popełniłem grzech, o który mnie oskarżacie, co jest niejasnym zastosowaniem „lepszego”: dokładnie określiłem, jak mediana i średnia różnią się w tym kontekście . Brzmi dla mnie tak, jakbyś miał problem z chłostą dotyczący środków vs. median, ale to nie jest miejsce, aby to zrobić.
whuber
16

John dał ci dobrą odpowiedź na siostrzanej stronie.

Jednym z aspektów, o którym nie wspomniał wyraźnie, jest solidność: mediana jako miara centralnej lokalizacji jest lepsza niż średnia, ponieważ ma wyższy punkt podziału (o 50%), podczas gdy średnia ma bardzo niską wartość 0 (szczegóły na stronie wikipedia ).

Intuicyjnie oznacza to, że indywidualne złe obserwacje nie wypaczają mediany, podczas gdy robią to dla średniej.

Dirk Eddelbuettel
źródło
9
Podział nie stanowi problemu dla statystyki opisowej całej populacji.
whuber
12

Oto moja odpowiedź opublikowana po raz pierwszy na stronie math.stackexchange:

Mediana jest tym, co wielu ludzi myśli o tym, gdy mówią „wredni”. Łatwiej jest zinterpretować medianę: połowa populacji jest powyżej tego wieku, a połowa poniżej. Podła jest nieco bardziej subtelna.

Ludzie szukają symetrii, a czasem narzucają symetrię, gdy jej nie ma. Rozkład wieku w populacji nie jest symetryczny, więc średnia może wprowadzać w błąd. Rozkład wieku jest czymś w rodzaju piramidy. Dużo dzieci, niewiele starszych. (A przynajmniej tak jest w stanie ustalonym. W Stanach Zjednoczonych pokolenie wyżu demograficznego po II wojnie światowej zniekształciło ten rozkład w miarę starzenia się. Niektórzy nazywali to „kwadratem piramidy”, ponieważ wyżu demograficznego stworzyli góra piramidy szersza niż w przeszłości.)

W przypadku rozkładu asymetrycznego lepiej jest zgłosić medianę, ponieważ jest to symetryczna statystyka. Mediana jest symetryczna, nawet jeśli rozkład próbkowania nie jest.

John D. Cook
źródło
W jakim sensie mediana jest „symetryczną” statystyką? Z pewnością nie jest tak, że rozkłady mają tendencję do symetrycznego rozmieszczenia wokół ich median (ani ich środków). Jeśli masz na myśli tylko to, co napisałeś w innym komentarzu, że „mediana dzieli populację na pół” (co definiuje medianę), twój argument brzmi kołowo: mediana jest dobra, ponieważ mediana jest medianą!
whuber
7

Dlaczego siekiera jest lepsza niż siekiera?

To podobne do twojego pytania. Po prostu mają na myśli i robią różne rzeczy. Jeśli ktoś mówi o medianach, to historia, którą próbują przekazać, model, który próbują zastosować do danych, jest inna niż ta ze środkami.

Jan
źródło
4

Konkretnym przykładem jest średni wiek w Kongo (DRK) i Japonii. Jeden jest zniszczony przez wojnę domową, drugi jest dobrze rozwinięty ze starzejącą się populacją. Średnia nie jest szczególnie interesująca dla porównania jabłek z jabłkami. Z drugiej strony, mediana może być informacyjna jako miara tendencji centralnej, ponieważ z definicji mamy ją w połowie powyżej, w połowie poniżej. Artykuł w Wikipedii na temat piramid populacji może być pouczający (zobacz sekcje na temat wypukłości wśród młodzieży, starzenia się populacji).

ars
źródło
3

Repozytoria danych dotyczących zdrowia publicznego w Stanach Zjednoczonych zmierzają w kierunku AGE w formacie pięcioletnim, w związku z wpływem przepisów HIPAA dotyczących celowego zaślepiania i maskowania danych ze względu na prywatność.

Biorąc pod uwagę to wyzwanie w stosunku do tego, co było w przeszłości (przed HIPAA), na dość skalowalnym poziomie elementu danych miary w oparciu o różnicę między datą urodzenia a datą śmierci, może być konieczne ponowne rozważenie AGE jako zmiennej skalowej, która może być parametrycznie opisane w ogóle w zestawach danych zdrowia publicznego, na korzyść modeli opisujących AGE w sposób nieparametryczny, jako porządkowy poziom miary. Wiem, że może się to wydawać „przesadne” dla wielu frakcji w społeczności informatycznej biomedycyny, ale ten pomysł może mieć pewne zalety pod względem „interpretacji”, jak opisano w komentarzach powyżej.

A co z całą siłą analityczną dostępną dla podejść nieparametrycznych? Tak, to prawda, że ​​każdy z nas prawie uniwersalnie spróbuje zastosować techniki GLM (ogólny model liniowy) do zmiennej, która przedstawia się nam w rozkładach, które zachowują się tak, jak AGE.

Jednocześnie należy wziąć pod uwagę kształt tego rozkładu i sposób, w jaki kształt ten jest określany przez oddziaływanie wielowymiarowe oddziaływań na wielowymiarowe centroidy i centroidy podgrupy obecne w rozkładzie. Co zrobić z tymi bardzo złożonymi zestawami danych?

Gdy element danych nie spełnia „założeń modelu”, stopniowo skanujemy (powiedziałem w poprzek, a nie w dół; powinniśmy być pracodawcami metody równych szans, każde narzędzie pochodzi z fabryki w formie zgodnej z regułami funkcji) lista innych możliwych modeli, aby znaleźć te, które „nie zawiodą” testów założeń.

W obecnym formacie zestawów danych dotyczących zdrowia publicznego naprawdę potrzebujemy (jako społeczności wizualizacji danych), aby opracować bardziej standardowy model obsługi AGE w odstępach pięcioletnich (5YI). Mój głos za wizualizacją danych AGE (biorąc pod uwagę nowy format 5YI) to użycie histogramów oraz wykresów pudełkowych i wąsów. Tak, oznacza to medianę. (Gra słów nie przeznaczona!)

Czasami obraz jest naprawdę wart tysiąca słów, a streszczenie to streszczenie tysiąca słów. Wykres pudełka i wąsów pokazuje „kształt” rozkładu jako znaczącą symboliczną reprezentację histogramu na niemal kultowym poziomie rozdzielczości. Porównanie rozkładów pięcioletnich przyrostów wieku poprzez pokazanie wykresów „bok obok siebie” i wykresów wąsów, w których można natychmiast wizualnie porównać wzorce od 75 do 50 (mediana) do niższych 25 nilitów, stanowiłby elegancki „uniwersalny standard” do porównywania wieku świat. Dla tych z nas, którzy nadal cieszą się dreszczem reprezentacji danych za pomocą mechaniki tekstowej wyświetlania tabelarycznego, diagram „łodyga i liść” może być również przydatny, gdy zostanie zastosowany jako animowany element grafiki wizualnej w „wykresie przebiegu w czasie”

WIEK osiągnął pełnoletność. Należy go dalej badać za pomocą bardziej wydajnych algorytmów obliczeniowych, które są już dostępne.

Richard E. Gilder
źródło
1
To jest dobrze napisany post, ale wydaje się, że nie ma żadnego związku z pierwotnym pytaniem.
Andy W
Myślę, że pośrednio, ale odpowiednio odnosi się do pozornej intencji pytania @Andy. Ewentualna wina leży w samym pytaniu, które jest dwuznaczne, ponieważ nie określa sensu, w jakim środek może być „gorszy” niż mediana. Dobra odpowiedź musi zatem zbadać to i rozważyć cel podsumowania rozkładu wiekowego za pomocą jednej statystyki. Tutaj naturalnie prowadzi to do dyskusji na temat tego, co może oznaczać „wiek” i jak właściwie porównać rozkłady wieku.
whuber
3

Nie sądzę, aby istniał dobry opisowy powód, aby wybrać medianę zamiast średniej dla rozkładów wieku. Jedną z praktycznych cech jest porównywanie zgłaszanych danych.

Wiele krajów zgłasza swoją populację w pięcioletnich przedziałach wiekowych, przy czym najwyższy zespół jest otwarty. Powoduje to pewne trudności w obliczaniu średniej z przedziałów, szczególnie dla najmłodszych przedziałów (dotkniętych wskaźnikami śmiertelności niemowląt), górnego „przedziału” (jaka jest średnia z przedziału 80+?) I najbliższych górnych przedziałów ( średnia każdego przedziału jest zwykle niższa niż środek).

O wiele łatwiej jest oszacować medianę interpolując w przedziale mediany, często przybliżając ją, zakładając płaski lub trapezowy rozkład wieku w tym przedziale (współczynniki zgonów w wielu krajach są stosunkowo niskie w pobliżu mediany wieku, co jest bardziej rozsądnym przybliżeniem niż to jest dla młodych i starszych).

Henz
źródło
3

Aby udzielić użytecznej odpowiedzi, pierwotne pytanie wymaga znajomości pytania. Innymi słowy: „Dlaczego potrzebujesz jakiejś podsumowującej statystyki porównującej rozkład wiekowy w różnych krajach?” Mediana może być najbardziej przydatna w przypadku niektórych pytań. Średnia może być najbardziej przydatna dla innych. I prawdopodobnie istnieją pytania, w których „procent powyżej (lub poniżej) określonego wieku” byłby najbardziej przydatną statystyką.

Emil Friedman
źródło
2

Dostajesz tutaj dobre odpowiedzi, ale pozwól mi dodać tylko 2 centy. Pracuję w farmakometrii, która zajmuje się takimi rzeczami, jak objętość krwi, szybkość eliminacji, podstawowy poziom efektu leku, maksymalny efekt leku i podobne parametry.

Rozróżniamy zmienne, które mogą przyjmować dowolne wartości plus lub minus, w porównaniu do wartości, które mogą być tylko dodatnie. Przykładem zmiennej, która może przyjmować dowolną wartość, plus lub minus, może być efekt leku, który może być dodatni, zero lub ujemny. Przykładem zmiennej, która może być realistycznie dodatnia, jest objętość krwi lub szybkość eliminacji leku.

Modelujemy te rzeczy za pomocą rozkładów, które są zwykle normalne lub logarytmiczne, normalne dla dowolnych wartości i logarytmiczne dla jedynych dodatnich. Liczba logarytmiczna to liczba E doprowadzona do potęgi normalnie dystrybuowanej liczby, i dlatego może być tylko dodatnia.

W przypadku zmiennej o rozkładzie normalnym mediana, średnia i tryb mają tę samą liczbę, więc nie ma znaczenia, którego użyjesz. Jednak w przypadku zmiennej o rozkładzie logarytmicznym średnia jest większa zarówno od mediany, jak i od trybu, więc nie jest bardzo przydatna. W rzeczywistości, mediana jest tam, gdzie leży norma leżąca u podstaw, więc jest to znacznie bardziej atrakcyjna miara.

Ponieważ wiek (przypuszczalnie) nigdy nie może być ujemny, rozkład logarytmiczny jest prawdopodobnie lepszym jego opisem niż normalny, więc mediana (E do średniej podstawowej normy) jest bardziej przydatna.

Mike Dunlavey
źródło
5
Rozkład wieku z pewnością nie jest normalny.
Rob Hyndman,
1
Nie sądzę, żebyś mógł wywnioskować, że wiek jest logarytmicznie dystrybuowany tylko z tego, że zawsze jest dodatni. Rozkłady gamma i Weibulla są zawsze dodatnie, więc dlaczego nie wybrać tych?
nico
@Rob: @nico: Jestem pewien, że masz rację. To był zły wybór przykładu. Zazwyczaj modelujemy parametry farmakometryczne, takie jak objętość i klirens.
Mike Dunlavey,
2

Nauczono mnie, że mediana powinna być stosowana z zakresem i średnią ze standardowym odchyleniem. Kiedy mówimy o wieku, myślę, że zasięg jest bardziej odpowiednim sposobem wyrażenia spreadu i dla większości jest łatwiejszy do zrozumienia. Na przykład w badanej populacji średni wiek wynosił 53 lata (SD 5,4) lub mediana wieku 48 lat (zakres 23–77). Z tego powodu wolałbym raczej zastosować medianę niż średnią. Byłbym jednak bardzo zainteresowany tym, co powiedziałby statystyk lub specjalista ds. Statystyk o używaniu średniej z zakresem? Widzę to dość często w pracach naukowych.

Susanne
źródło
Witamy w CV, Susanne. Jeśli zamieściłeś to w celu uzyskania odpowiedzi, usuń go i opublikuj ponownie jako nowe pytanie. Wskazówki dotyczące korzystania z tej witryny są dostępne w naszym centrum pomocy .
whuber
1

Odpowiedź Johna na math.stackexchange można postrzegać następująco:

Gdy masz przekrzywiony rozkład, mediana może być lepszą statystyką podsumowującą niż średnia.

Zauważ, że kiedy mówi, że jest więcej niemowląt niż dorosłych, zasadniczo sugeruje, że rozkład wieku jest rozkładem wypaczonym.


źródło
Właściwie myślę, że obecnie przekrzywienie w wielu krajach jest bardziej skierowane do seniorów, a nie do totów.
JM nie jest statystykiem
Być może jest przekrzywiony w drugą stronę, ale ogólna kwestia jest słuszna. W przypadku rozkładów ukośnych mediana może mieć większy sens niż średnia.
Właśnie zaktualizowałem swoją odpowiedź na math.stackexchange, aby podkreślić tylko ten punkt. Ludzie szukają symetrii i mogą niepoprawnie narzucić symetrię, gdy jej nie ma. Podając medianę, podajesz odpowiedź symetryczną - mediana dzieli populację na pół - nawet jeśli rozkład nie jest symetryczny.
John D. Cook,
Ta odpowiedź zawsze wydaje mi się nieco ukrywana: gdy rozkłady nie są pochylone (tj. Są symetryczne), średnia równa się medianie, więc powiedzenie, że mediana jest „lepsza”, gdy rozkład jest pochylony, jest backdoorowym sposobem na powiedzenie „tylko użyj mediana ”.
Alexis
1

Mam nadzieję, że na średni wiek będą miały wpływ wartości odstające w twoim zbiorze danych, podczas gdy nie jest tak w przypadku wieku średniego. Weźmy przykład zbioru danych zaszczepionych pacjentów: 1,2,3,4,4,5,6,6,6,78 lat średnia wynosiłaby: 11,5, a mediana wieku tych pacjentów to 4,5. na ten średni wiek wpłynęła wartość odstająca 78. mediana jest najlepsza w przypadku zestawów danych o przekrzywionym rozkładzie.

Eustache
źródło
Zobacz moją odpowiedź dla User28.
Alexis
0

Z pewnością w przypadku analizy demograficznej uważam, że zarówno średnia, jak i mediana byłyby cenne, szczególnie w połączeniu ze sobą, jeśli szukasz wartości odstających lub obszarów wzrostu, które mogą być błędnie oznaczone przez samą medianę. W społecznościach z dużą społecznością emerytalną lub w rejonie z eksplozją wskaźnika urodzeń sama mediana może nie dać pełnego obrazu, i to właśnie w tym przypadku średnia może być bardzo przydatna.

Matt L.
źródło