Właściwości średnie i mediany

18

Czy ktoś może mi wyjaśnić logikę matematyczną, która łączyłaby dwa zdania (a) i (b) razem? Pozwól nam mieć zestaw wartości (pewna dystrybucja). Teraz,

a) Mediana nie zależy od każdej wartości [zależy tylko od jednej lub dwóch wartości średnich]; b) Mediana jest miejscem występowania minimalnych sum bezwzględnych odchyleń od niej.

I w przeciwieństwie do tego

a) Średnia (arytmetyczna) zależy od każdej wartości; b) Średnia oznacza miejsce minimalnych odchyleń kwadratowych od niej.

Jak dotąd rozumiem to intuicyjnie.

mean median robust sensitivity-analysis ttnphns
źródło

1

Warto przejrzeć starszą wersję tego samego pytania: stats.stackexchange.com/questions/2547/... A opis Robust Statistics: en.wikipedia.org/wiki/Robust_statistics

bill_080

Zatem dla pierwszej pary jest dowód, że mediana, jak zwykle definiowana jako wartość średniej rangi (dla nieparzystej liczby wartości, na początek w najprostszym przypadku) jest również wartością, która minimalizuje sumę absolutnych odchyleń? Wolisz dowód, który daje również intuicyjny wgląd? Sam nie znam żadnego dowodu, więc wydaje się to dobre pytanie, na które chciałbym również znać odpowiedź.

onestop

Czujesz mnie poprawnie. (a) i (b) są obecnie moim zdaniem odrębnymi aspektami / właściwościami dla obu statystyk; ale intuicja sugeruje, że oba aspekty są ze sobą powiązane. Chcę wiedzieć - jak są ze sobą powiązane, aby zrozumieć to wszystko głęboko.

ttnphns

19

To dwa pytania: jedno o tym, w jaki sposób średnia i mediana minimalizują funkcje utraty, a drugie o wrażliwość tych oszacowań na dane. Oba pytania są ze sobą powiązane, jak zobaczymy.

Minimalizowanie strat

Podsumowanie (lub estymator) środka partii liczb można utworzyć, pozwalając na zmianę wartości podsumowania i wyobrażając sobie, że każda liczba w partii wywiera siłę przywracającą tę wartość. Kiedy siła nigdy nie wypycha wartości od liczby, to prawdopodobnie każdy punkt, w którym siły równoważą się, jest „środkiem” partii.

Kwadratowa ( ) strata $L_2$

Na przykład, jeśli mamy dołączyć klasyczną sprężynę (zgodnie z prawem Hooke'a ) między podsumowaniem a każdą liczbą, siła byłaby proporcjonalna do odległości do każdej sprężyny. Sprężyny wyciągnęłyby podsumowanie w ten sposób i ostatecznie, osiedlając się w wyjątkowym, stabilnym miejscu o minimalnej energii.

Chciałbym zwrócić uwagę na małą sztuczkę, która właśnie się wydarzyła: energia jest proporcjonalna do sumy kwadratowych odległości. Mechanika Newtona uczy nas, że siła jest szybkością zmiany energii. Osiągnięcie równowagi - minimalizacja energii - powoduje zrównoważenie sił. Szybkość netto zmiany energii wynosi zero.

Nazwijmy to „ podsumowaniem ” lub „podsumowaniem strat kwadratowych”. $L_2$

Absolute ( ) Strata $L_1$

Kolejne podsumowanie można utworzyć, zakładając, że rozmiary sił przywracających są stałe , niezależnie od odległości między wartością a danymi. Same siły nie są jednak stałe, ponieważ zawsze muszą przyciągać wartość w kierunku każdego punktu danych. Zatem, gdy wartość jest mniejsza niż punkt danych, siła jest skierowana dodatnio, ale gdy wartość jest większa niż punkt danych, siła jest skierowana ujemnie. Teraz energia jest proporcjonalna do odległości między wartością a danymi. Zazwyczaj będzie cały obszar, w którym energia jest stała, a siła netto wynosi zero. Każda wartość w tym regionie możemy nazwać „ podsumowaniem ” lub „podsumowaniem strat bezwzględnych”. $L_1$

Te fizyczne analogie dostarczają użytecznej intuicji na temat dwóch podsumowań. Na przykład, co stanie się z podsumowaniem, jeśli przeniesiemy jeden z punktów danych? W przypadku z przymocowanymi sprężynami przesunięcie jednego punktu danych albo rozciąga, albo rozluźnia jego sprężynę. Rezultatem jest zmiana obowiązująca dla podsumowania, więc musi się zmienić w odpowiedzi. Jednak w przypadku zmiana punktu danych w większości nie wpływa na podsumowanie, ponieważ siła jest lokalnie stała. Jedynym sposobem, w jaki siła może się zmienić, jest przesunięcie punktu danych w podsumowaniu. $L_2$ $L_1$

(W rzeczywistości powinno być oczywiste, że siła netto na wartości jest podana przez liczbę punktów większą od niej - która ciągnie ją w górę - minus liczba punktów mniejszych niż - która ciągnie ją w dół. podsumowanie musi pojawić się w dowolnym miejscu, w którym liczba wartości danych przekracza ona dokładnie równa liczbie wartości danych mniej niż to.) $L_1$

Przedstawienie strat

Ponieważ zarówno siły, jak i energie sumują się, w obu przypadkach możemy rozkładać energię netto na poszczególne wkłady z punktów danych. Wykreślając energię lub siłę w funkcji wartości podsumowującej, zapewnia to szczegółowy obraz tego, co się dzieje. Podsumowanie będzie miejscem, w którym energia (lub „strata” w języku statystycznym) jest najmniejsza. Równolegle będzie to miejsce, w którym siły się równoważą: centrum danych występuje, gdy zmiana netto straty wynosi zero.

Ten rysunek pokazuje energie i siły dla małego zestawu danych o sześciu wartościach (oznaczonych słabymi pionowymi liniami na każdym wykresie). Czarne przerywane krzywe to sumy kolorowych krzywych pokazujące wkład poszczególnych wartości. Oś x wskazuje możliwe wartości podsumowania.

Rycina 1

Arytmetyczna to punkt, w którym jest zminimalizowane straty kwadratów: będzie on usytuowany przy wierzchołku (na dole), czarnej paraboli, w lewym górnym rogu wykresu. Jest zawsze wyjątkowy. Środkowa jest punktem, w których konieczna strata jest zminimalizowane. Jak wspomniano powyżej, musi to nastąpić w środku danych. To niekoniecznie jest wyjątkowe. Zostanie on umieszczony na dole złamanej czarnej krzywej w prawym górnym rogu. (Dno faktycznie składa się z krótkiej płaskiej sekcji między a ; każda wartość w tym przedziale jest medianą). $-0.23$ $-0.17$

Analiza wrażliwości

Wcześniej opisałem, co może się stać z podsumowaniem, gdy punkt danych jest zmienny. Warto wykreślić, jak zmienia się podsumowanie w odpowiedzi na zmianę dowolnego pojedynczego punktu danych. (Te wykresy są zasadniczo empirycznymi funkcjami wpływu . Różnią się one od zwykłej definicji tym, że pokazują rzeczywiste wartości szacunków, a nie to, jak bardzo te wartości się zmieniają.) Wartość podsumowania jest oznaczona „Szacunek” na y - przypomina, że w tym podsumowaniu oszacowano, gdzie znajduje się środek zestawu danych. Nowe (zmienione) wartości każdego punktu danych są pokazane na ich osiach x.

Rysunek 2

Ta rycina przedstawia wyniki różnicowania każdej wartości danych w partii (ta sama analizowana na pierwszej ). Dla każdej wartości danych jest jeden wykres, który jest podświetlony na swoim wykresie długim czarnym pasemkiem wzdłuż dolnej osi. (Pozostałe wartości danych są pokazane za pomocą krótkich szarych .) Niebieska krzywa śledzi podsumowanie - średnia arytmetyczna - a czerwona krzywa śledzi podsumowanie - mediana. (Ponieważ często mediana jest zakresem wartości, przestrzegana jest tutaj konwencja wykreślania środka tego zakresu). $-1.02, -0.82, -0.23, -0.17, -0.08, 0.77$ $L_2$ $L_1$

Ogłoszenie:

Czułość średniej jest nieograniczona: te niebieskie linie rozciągają się nieskończenie daleko w górę iw dół. Czułość mediany jest ograniczona: górne i dolne granice czerwonych krzywych.
Tam, gdzie mediana się zmienia, zmienia się znacznie szybciej niż średnia. Nachylenie każdej niebieskiej linii wynosi (ogólnie jest to dla zestawu danych o wartości ), podczas gdy wszystkie nachylenia przechylonych części czerwonych linii wynoszą . $1/6$ $1/n$ $n$ $1/2$
Średnia jest wrażliwa na każdy punkt danych i ta czułość nie ma granic (jak wskazują niezerowe nachylenia wszystkich kolorowych linii na lewym dolnym wykresie pierwszej cyfry). Chociaż mediana jest wrażliwa na każdy punkt danych, czułość jest ograniczona (dlatego kolorowe krzywe na prawym dolnym wykresie pierwszej figury znajdują się w wąskim pionowym zakresie wokół zera). Są to oczywiście jedynie wizualne powtórzenia podstawowego prawa siły (straty): kwadratowe dla średniej, liniowe dla mediany.
Przedział czasu, w którym można zmienić medianę, może się różnić w zależności od punktów danych. Jest zawsze ograniczony przez dwie bliskie środkowe wartości wśród danych, które się nie zmieniają . (Granice te są oznaczone słabymi pionowymi liniami przerywanymi).
Ponieważ szybkość zmian mediany jest zawsze The kwota przez które może się zmieniać w związku z tym jest określona przez długość tej szczeliny pomiędzy wartościami niemal pośrodku zestawu danych. $1/2$

Chociaż powszechnie odnotowuje się tylko pierwszy punkt, wszystkie cztery punkty są ważne. W szczególności,

To zdecydowanie nieprawda, że „mediana nie zależy od każdej wartości”. Ta liczba stanowi kontrprzykład.
Niemniej jednak mediana nie zależy „materialnie” od każdej wartości w tym sensie, że chociaż zmiana poszczególnych wartości może zmienić medianę, wielkość zmiany jest ograniczona przez luki między wartościami bliskimi środkowymi w zbiorze danych. W szczególności wielkość zmiany jest ograniczona . Mówimy, że mediana jest podsumowaniem „opornym”.
Chociaż średnia nie jest odporna i będzie się zmieniać za każdym razem, gdy zmieni się dowolna wartość danych, szybkość zmian jest stosunkowo niewielka. Im większy zestaw danych, tym mniejsza szybkość zmian. Odpowiednio, aby spowodować istotną zmianę średniej dużego zbioru danych, co najmniej jedna wartość musi podlegać stosunkowo dużej zmienności. Sugeruje to, że brak oporności średniej dotyczy tylko (a) małych zestawów danych lub (b) zestawów danych, w których jedna lub więcej danych może mieć wartości bardzo dalekie od połowy partii.

Te uwagi - mam nadzieję, że liczby te staną się oczywiste - ujawniają głęboki związek między funkcją straty a wrażliwością (lub opornością) estymatora. Aby uzyskać więcej informacji na ten temat, zacznij od jednego z artykułów Wikipedii na temat M-estymatorów, a następnie realizuj te pomysły, o ile chcesz.

Kod

Ten Rkod wygenerował liczby i można go łatwo modyfikować, aby badać każdy inny zestaw danych w ten sam sposób: po prostu zastąp losowo utworzony wektor ydowolnym wektorem liczb.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

Whuber
źródło

3

Oferuję nagrodę, z uwagi na żmudny, niespieszny styl odpowiedzi oprócz jakości.

ttnphns

Dziękuję Ci! Twoje uznanie dla tego postu jest najbardziej satysfakcjonujące.

whuber

11

$x_1,x_2,\ldots,x_n$ $n$ $y$ $f(y)$ $y$ $x_i$ $f(y) = |x_1 - y| + |x_2 - y| + \ldots + |x_n - y|$ $y$ $f(y)$ $l$ $x_i$ $y$ $r = n - l$ $y$ $y$ $y$ $f(y)$

$\Delta y$ $y$ $x_i$ $y$ $|x_i - y|$ $\Delta y$ $y$ $|x_i - y|$ $\Delta y$ $\Delta y$ $y$ $f(y)$ $l\Delta y - r \Delta y = (l-r)\Delta y$ $f(y)$ $x_i$ $y$ $y$ $f(y)$ $l-r = 0$ $x_i$ $y$ $y$ $x_i$

$f(y)$ $f(y) = (x_1 - y)^2 + \ldots + (x_n - y)^2$ $f(y)$ $y$ $x_i$ $y$

$f(y)$

shabbychef
źródło

1

x_{i}

$x_i$

dziękuję za eleganckie wyjaśnienie. Jednak wydaje mi się to takie: „Ta liczba y, której mała zmiana nie zmienia funkcji Suma | x_i-y | nie zależy od każdego x_i i jest nazywana medianą”. To interesująca notatka na temat mediany parzystych n danych. Ale chciałem to udowodnić: „Liczba y, która minimalizuje funkcję Suma | x_i-y | , nie zależy od każdego x_i i jest nazywana medianą”. I podobnie: „Liczba y, która minimalizuje funkcję Suma (x_i-y) ^ 2, zależy w równym stopniu od każdego x_i i nazywa się średnią”.

ttnphns

1

jak mam udowodnić część „nazywa się medianą”? To szalone.

shabbychef

To trop przyczyny. Ta część nie jest do udowodnienia, mam nadzieję, że rozumiesz.

ttnphns,

1

Czy istnieje podobny wynik dla mediany odchyleń bezwzględnych zamiast sumy odchyleń bezwzględnych? Ponieważ Mediana Absolutnego Odchylenia od Mediany jest również dość interesującą miarą dyspersji.

samthebest

3

$x_{(n)}$ $2 * x_{(n)}$
$a \in \mathbb{R}$

$\sum_{i=1}^{n} |x_{i} - median| \leq \sum_{i=1}^{n} |x_{i} - a|$

i

$\sum_{i=1}^{n} (x_{i} - mean)^{2} \leq \sum_{i=1}^{n} (x_{i} - a)^{2}$

ocram
źródło

Cóż, jako doświadczony statystyk bez podstawowego wykształcenia matematycznego wciąż dużo wiem o średnich i średnich różnicach i zastosowaniach. Potrzebuję tu kogoś, kto Narysuje - logicznie lub matematycznie - albo (a) z (b) albo (b) z (a), dla mnie. Czuję, że nie mogę racjonalnie zharmonizować (a) z (b) racjonalnie. Marco, bardzo trudno mi zrozumieć twój zapis. Jeśli twoje formuły są wnioskiem, którego potrzebuję, czy mógłbyś „przeżuć” ten pomysł mniej technicznie dla mnie?

ttnphns

PS Dopóki twoje dwie nierówności zostaną w końcu poprawnie wyświetlone na moim ekranie, widzę, że to tylko moje (b) stwierdzenia. Piszesz: „można pokazać, że ...”. Więc pokaż mi to. Potrzebuję pewnego rodzaju matematycznego dowodu sformułowanego w sposób zrozumiały dla analityka danych, który nie jest zawodowym matematykiem.

ttnphns

2

@ttnphns: twoja prośba o odpowiedź matematyczną zamiast intuicyjną wydaje się niezgodna z twoją prośbą o coś mniej technicznego niż to, co ludzie zaoferowali.

rolando2

Czy możemy uprościć sytuację do 2 lub 3 punktów i zapytać, czy mediana w powyższej niejednoznacznej nierówności podwójnego sumowania ma unikalną wartość? Z dwoma punktami wydaje się, że byłby spełniony dowolny punkt między 2.

DW

2

Hej, oto wkład, po tym, jak o nim trochę przeczytałem. Prawdopodobnie trochę za późno dla osoby, która poprosiła, ale może warto dla kogoś innego.

W średniej sprawie:

$argmin_x \sum_{i=1}^n (y_i - x)$

$f(x) = \sum_{i=1}^n(y_i - x)^2$

$f'(x)=0 \Leftrightarrow 2 \sum_{i=1}^n (y_i - x ) = 0$

$f'(x)=0\Leftrightarrow \sum_{i=1}^n y_i = \sum_{i=1}^n x$

$f'(x)=0\Leftrightarrow x = \frac{\sum_{i=1}^n}{n}$

Ponieważ funkcja jest wypukła, jest to minimum

W przypadku mediany

$argmin_x \sum_{i=1}^n |y_i - x|$

$f(x) = \sum_{i=1}^n|y_i - x|$

$f'(x)=0 \Leftrightarrow \sum_{i=1}^n sgn(y_i - x ) = 0$

$sgn(x)$ $sgn(x)=1$ $x >0$ $sgn(x)=-1$ $x<0$

$f'(x)=0\Leftrightarrow \# \{y_i / y_i >x \} - \# \{y_i / y_i <x \} = 0$

$\#{}$ jest kardynałem przestrzeni, więc w tym dyskretnym przypadku jest w niej liczba elementów)

$f'(x)=0\Leftrightarrow x$

Ponieważ funkcja jest również wypukła, jest to znowu minimum.

Anthony Martin
źródło

Dzięki. Może to być pomocne dla mnie i innych. Czy możesz dodać kilka słów słowami do głównych wyrażeń - dla kogoś, kto nie do końca rozumie formuły. W szczególności twój ostatni przez jedną linię - co to znaczy i co jest #?

ttnphns

Czy to już jasne? Zdefiniowałem dwie mniej typowe funkcje

Anthony Martin

Właściwości średnie i mediany

Odpowiedzi:

Minimalizowanie strat

Kwadratowa ( ) strataL2L2L_2

Absolute ( ) StrataL1L1L_1

Przedstawienie strat

Analiza wrażliwości

Kod

Kwadratowa ( ) strata $L_2$

Absolute ( ) Strata $L_1$