Czy istnieje przyjęta definicja mediany próbki na płaszczyźnie lub wyższych uporządkowanych przestrzeni?

33

Jeśli tak to co? Jeśli nie, dlaczego nie?

W przypadku próbki w linii mediana minimalizuje całkowite odchylenie bezwzględne. Wydaje się naturalne, aby rozszerzyć definicję na R2 itp., Ale nigdy jej nie widziałem. Ale od dłuższego czasu jestem na lewym polu.

phv3773
źródło

Odpowiedzi:

19

Nie jestem pewien, czy istnieje jedna przyjęta definicja wielowymiarowej mediany. Znany mi jest punkt środkowy Oji, który minimalizuje sumę objętości uproszczeń utworzonych nad podzbiorami punktów. (Zobacz link do definicji technicznej).

Aktualizacja: Witryna, do której odwołuje się powyższa definicja Oja, zawiera także niezły artykuł obejmujący wiele definicji mediany wielowymiarowej:

ars
źródło
1
Niezłe referencje: dzięki. Kompleksowo obejmuje wszystko wymienione tutaj.
whuber
Ta sama strona zawiera także przegląd nive w html: cgm.cs.mcgill.ca/~athens/Geometric-Estimators/intro.html
Aditya
15

Jak powiedział @Ars , nie ma przyjętej definicji (i to jest dobry punkt). Istnieją ogólne alternatywy rodzin sposobów uogólnienia kwantyli na , myślę, że najbardziej znaczące są:Rd

  • Uogólnij procesNiechbędzie miarą empiryczną (= proporcja obserwacji w). Następnie, zdobrze wybranym podzbiorem zestawów Borela wimiarą o wartościach rzeczywistych, możesz zdefiniować empiryczną funkcję kwantylu:A A R d λPn(A)AARdλ

    Un(t)=inf(λ(A):Pn(A)tAA)

    Załóżmy, że możesz znaleźć jeden który daje ci minimum. Następnie zestaw (lub element zestawu) podaje medianę, gdy jest wystarczająco mały. Definicja mediany jest odzyskiwana przy użyciu i . Odpowiedź ARS mieści się w tym frameworku. Myślę, że ... półprzestrzeń tukeya można uzyskać za pomocą i (z , ).AtA1/2ϵA1/2+ϵϵA=(],x]xR)λ(],x])=xA(a)=(Hx=(tRd:a,tx)λ(Hx)=xxRaRd

  • definicja wariacyjna i estymacja M Chodzi tutaj o to, że quantilezmiennej losowejwmożna zdefiniować poprzez równość wariacyjną.αQαYR

    • Najczęstszą definicją jest użycie funkcji regresji kwantowej (znanej również jako utrata pinball, zgadnij dlaczego?) . Przypadek dajei możesz uogólnić to na wyższy wymiar, używając odległości jak to zrobiono w @Srikant Answer . Jest to mediana teoretyczna, ale daje medianę empiryczną, jeśli zastąpisz oczekiwanie empirycznym oczekiwaniem (średnia).ραQα=arginfxRE[ρα(Yx)]α=1/2ρ1/2(y)=|y|l1

    • Ale Kolszyński proponuje użycie transformacji Legendre-Fenchela: ponieważ gdzie dla . Podaje wiele głębokich powodów (patrz artykuł;)). Uogólnienie tego na wyższe wymiary wymaga pracy z wektorowym i zastąpienia przez ale możesz wziąć .Qα=Argsups(sαf(s))f(s)=12E[|sY||Y|+s]sRαsαs,αα=(1/2,,1/2)

  • Częściowe porządkowanie Możesz uogólnić definicję kwantyli wjak tylko będziesz mógł utworzyć częściowe uporządkowanie (z klasami równoważności).Rd

Oczywiście istnieją pomosty między różnymi formułami. Nie wszystkie są oczywiste ...

Robin Girard
źródło
Dobra odpowiedź, Robin!
ars
12

Istnieją różne sposoby uogólnienia koncepcji mediany do wyższych wymiarów. Jeszcze nie wspomnianym, ale zaproponowanym dawno temu, jest zbudowanie wypukłego kadłuba, oderwanie go i powtarzanie tak długo, jak to możliwe: w ostatnim kadłubie jest zestaw punktów, z których wszyscy mogą kandydować na „ mediany ”.

„Uderzanie głową” to kolejna nowsza próba (ok. 1980) zbudowania solidnego centrum chmury punktów 2D. (Link do dokumentacji i oprogramowania dostępnego w US National Cancer Institute).

Głównym powodem, dla którego istnieje wiele różnych uogólnień i nie ma jednego oczywistego rozwiązania, jest to, że R1 można zamówić, ale R2, R3 ... nie może być.

Whuber
źródło
Każda miara, która pokrywa się ze zwykłą medianą, gdy jest ograniczona do R1, jest uogólnieniem kandydującym. Musi być ich dużo.
phv3773,
phv:> można poprosić o uogólnienie, aby zachować (w wyższych wymiarach) niektóre interesujące właściwości mediany. Ogranicza to poważnie liczbę kandydatów (patrz komentarz po odpowiedzi Srikanta poniżej)
user603
@ Whuber:> to pojęcie uogólnienia można uogólnić na R ^ n dla rozkładów jednomodalnych (patrz moja odpowiedź poniżej).
user603
@kwak: czy mógłbyś trochę rozwinąć? Zwykła matematyczna definicja uporządkowania przestrzeni jest niezależna od wszelkiego rodzaju rozkładu prawdopodobieństwa, więc domyślnie należy mieć na uwadze pewne dodatkowe założenia.
whuber
1
@ Whuber:> Stwierdzasz: „R1 można zamówić, ale R2, R3, ... nie można”. R2, .., R3 można zamówić na wiele sposobów, odwzorowując z Rn na R. Jednym z takich sposobów jest głębokość tukey. Ma wiele ważnych właściwości (w pewnym stopniu odporność, nieparametryczna, niezmienność, ...), ale mają one zastosowanie tylko w przypadku rozkładów jednomodalnych. Daj mi znać, jeśli chcesz więcej szczegółów.
user603,
6

Mediana półprzestrzeni Tukeya może zostać rozszerzona do> 2 wymiarów za pomocą DEEPLOC, algorytmu ze względu na Struyf i Rousseeuw; zobacz tutaj po szczegóły.

Algorytm służy do efektywnego przybliżenia punktu największej głębokości; naiwne metody, które próbują to dokładnie ustalić, zwykle działają w oderwaniu od (przekleństwa) „klątwy wymiarowości”, gdzie czas działania wymagany do obliczenia statystyki rośnie wykładniczo wraz z liczbą wymiarów przestrzeni.

Gary Campbell
źródło
0

Nie wiem, czy istnieje taka definicja, ale spróbuję rozszerzyć standardową definicję mediany do . Użyję następującej notacji:R2

X , : losowe zmienne związane z dwoma wymiarami.Y

mx , : odpowiednie mediany.my

f(x,y) : wspólny pdf dla naszych zmiennych losowych

Aby rozszerzyć definicję mediany do , wybieramy i aby zminimalizować:R2mxmy

E(|(x,y)(mx,my)|

Problem polega na tym, że potrzebujemy definicji tego, co rozumiemy przez:

|(x,y)(mx,my)|

Powyższe jest w pewnym sensie miarą odległości i możliwych jest kilka możliwych definicji kandydatów.

Eucliedan Metric

|(x,y)(mx,my)|=(xmx)2+(ymy)2

Obliczenie mediany w ramach metryki euklidesowej będzie wymagało obliczenia powyższego oczekiwania w odniesieniu do gęstości złączaf(x,y) .

Taxicab Metric

|(x,y)(mx,my)|=|xmx|+|ymy|

Obliczania mediany przypadku metryka Taxicab obejmuje obliczanie mediany i oddzielnie jako dane są separowane w i .XYxy


źródło
Srikant:> Nie. Definicja musi mieć dwie ważne cechy mediany jednowymiarowej. a) Niezmienny dla monotonicznej transformacji danych, b) odporny na zanieczyszczenie przez wartości odstające. Żaden z proponowanych przez ciebie zakresów nie ma takich. Głębia Tukey ma te cechy.
user603
@kwak To, co mówisz, ma sens.
@Sikikant:> Sprawdź artykuł R&S cytowany powyżej przez Gary'ego Campbella;). Najlepiej
user603,
@kwak Po zastanowieniu się, metryka taksówki ma funkcje, o których wspomniałeś, ponieważ zasadniczo ogranicza się do median jednoznacznych. Nie?
2
@Sikikant:> nie ma niepoprawnej odpowiedzi na pytania phv, ponieważ nie ma też „dobrych odpowiedzi”; ten obszar badań jest wciąż w fazie rozwoju. Chciałem po prostu wskazać, dlaczego wciąż jest to otwarty problem.
user603