Jeśli tak to co? Jeśli nie, dlaczego nie?
W przypadku próbki w linii mediana minimalizuje całkowite odchylenie bezwzględne. Wydaje się naturalne, aby rozszerzyć definicję na R2 itp., Ale nigdy jej nie widziałem. Ale od dłuższego czasu jestem na lewym polu.
multivariate-analysis
spatial
median
phv3773
źródło
źródło
Odpowiedzi:
Nie jestem pewien, czy istnieje jedna przyjęta definicja wielowymiarowej mediany. Znany mi jest punkt środkowy Oji, który minimalizuje sumę objętości uproszczeń utworzonych nad podzbiorami punktów. (Zobacz link do definicji technicznej).
Aktualizacja: Witryna, do której odwołuje się powyższa definicja Oja, zawiera także niezły artykuł obejmujący wiele definicji mediany wielowymiarowej:
źródło
Jak powiedział @Ars , nie ma przyjętej definicji (i to jest dobry punkt). Istnieją ogólne alternatywy rodzin sposobów uogólnienia kwantyli na , myślę, że najbardziej znaczące są:Rd
Uogólnij procesNiechbędzie miarą empiryczną (= proporcja obserwacji w). Następnie, zdobrze wybranym podzbiorem zestawów Borela wimiarą o wartościach rzeczywistych, możesz zdefiniować empiryczną funkcję kwantylu:A A R d λPn(A) A A Rd λ
Załóżmy, że możesz znaleźć jeden który daje ci minimum. Następnie zestaw (lub element zestawu) podaje medianę, gdy jest wystarczająco mały. Definicja mediany jest odzyskiwana przy użyciu i . Odpowiedź ARS mieści się w tym frameworku. Myślę, że ... półprzestrzeń tukeya można uzyskać za pomocą i (z , ).At A1/2−ϵ∩A1/2+ϵ ϵ A=(]−∞,x]x∈R) λ(]−∞,x])=x A(a)=(Hx=(t∈Rd:⟨a,t⟩≤x) λ(Hx)=x x∈R a∈Rd
definicja wariacyjna i estymacja M Chodzi tutaj o to, że quantilezmiennej losowejwmożna zdefiniować poprzez równość wariacyjną.α Qα Y R
Najczęstszą definicją jest użycie funkcji regresji kwantowej (znanej również jako utrata pinball, zgadnij dlaczego?) . Przypadek dajei możesz uogólnić to na wyższy wymiar, używając odległości jak to zrobiono w @Srikant Answer . Jest to mediana teoretyczna, ale daje medianę empiryczną, jeśli zastąpisz oczekiwanie empirycznym oczekiwaniem (średnia).ρα Qα=arginfx∈RE[ρα(Y−x)] α=1/2 ρ1/2(y)=|y| l1
Ale Kolszyński proponuje użycie transformacji Legendre-Fenchela: ponieważ gdzie dla . Podaje wiele głębokich powodów (patrz artykuł;)). Uogólnienie tego na wyższe wymiary wymaga pracy z wektorowym i zastąpienia przez ale możesz wziąć .Qα=Argsups(sα−f(s)) f(s)=12E[|s−Y|−|Y|+s] s∈R α sα ⟨s,α⟩ α=(1/2,…,1/2)
Oczywiście istnieją pomosty między różnymi formułami. Nie wszystkie są oczywiste ...
źródło
Istnieją różne sposoby uogólnienia koncepcji mediany do wyższych wymiarów. Jeszcze nie wspomnianym, ale zaproponowanym dawno temu, jest zbudowanie wypukłego kadłuba, oderwanie go i powtarzanie tak długo, jak to możliwe: w ostatnim kadłubie jest zestaw punktów, z których wszyscy mogą kandydować na „ mediany ”.
„Uderzanie głową” to kolejna nowsza próba (ok. 1980) zbudowania solidnego centrum chmury punktów 2D. (Link do dokumentacji i oprogramowania dostępnego w US National Cancer Institute).
Głównym powodem, dla którego istnieje wiele różnych uogólnień i nie ma jednego oczywistego rozwiązania, jest to, że R1 można zamówić, ale R2, R3 ... nie może być.
źródło
Mediana geometryczna to punkt o najmniejszej średniej odległości euklidesowej od próbek
źródło
Mediana półprzestrzeni Tukeya może zostać rozszerzona do> 2 wymiarów za pomocą DEEPLOC, algorytmu ze względu na Struyf i Rousseeuw; zobacz tutaj po szczegóły.
Algorytm służy do efektywnego przybliżenia punktu największej głębokości; naiwne metody, które próbują to dokładnie ustalić, zwykle działają w oderwaniu od (przekleństwa) „klątwy wymiarowości”, gdzie czas działania wymagany do obliczenia statystyki rośnie wykładniczo wraz z liczbą wymiarów przestrzeni.
źródło
Definicja, która jest do niej zbliżona, dla dystrybucji jednomodalnych, to mediana półprzestrzeni tukeya
źródło
Nie wiem, czy istnieje taka definicja, ale spróbuję rozszerzyć standardową definicję mediany do . Użyję następującej notacji:R2
Aby rozszerzyć definicję mediany do , wybieramy i aby zminimalizować:R2 mx my
Problem polega na tym, że potrzebujemy definicji tego, co rozumiemy przez:
Powyższe jest w pewnym sensie miarą odległości i możliwych jest kilka możliwych definicji kandydatów.
Eucliedan Metric
Obliczenie mediany w ramach metryki euklidesowej będzie wymagało obliczenia powyższego oczekiwania w odniesieniu do gęstości złączaf(x,y) .
Taxicab Metric
Obliczania mediany przypadku metryka Taxicab obejmuje obliczanie mediany i oddzielnie jako dane są separowane w i .X Y x y
źródło