Rozkład odległości Mahalanobisa na poziomie obserwacji

23

Jeśli mam wielowymiarową normalną próbkę iid i zdefiniuję (który jest rodzajem odległości Mahalanobisa [kwadrat] od punktu próbki do wektora przy użyciu macierzy do ważenia), jaki jest rozkład (odległość Mahalanobisa do średnia próbki przy użyciu przykładowej macierzy kowariancji )?d 2 i ( b , A ) = ( X i - b ) A - 1 ( X i - b ) a AX1,,XnNp(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
aA ˉ X Sdi2(X¯,S)X¯S

Patrzę na artykuł, który twierdzi, że jest to , ale jest to oczywiście błędne: zostałby uzyskany dla przy użyciu (nieznanego) średniego wektora populacji i macierz kowariancji. Po podłączeniu przykładowych analogów należy uzyskać rozkład Hotelling lub skalowany rozkład lub coś w tym rodzaju, ale nie . Nie mogłem znaleźć dokładnego wyniku ani w Muirhead (2005) , ani w Anderson (2003) , ani w Mardii, Kent i Bibby (1979, 2003) χ 2 p d 2 i ( μ , Σ ) T 2 F ( ) χ 2 pχp2χp2di2(μ,Σ)T 2F()χp2. Najwyraźniej ci faceci nie zawracali sobie głowy diagnostyką wartości odstających, ponieważ rozkład normalny na wielu odmianach jest idealny i można go łatwo uzyskać za każdym razem, gdy zbiera się dane na wielu odmianach: - /.

Sprawy mogą być bardziej skomplikowane. Wynik rozkładu Hotelling opiera się na założeniu niezależności między częścią wektorową a częścią macierzową; Taka niezależność zachodzi dla i , ale to już nie zachodzi dla i S .ˉ X S X i ST 2X¯SXiS

StasK
źródło
Czy w definicji nadal postrzegasz jako zmienną losową, czy traktujesz ją jako stały wektor? Dołączenie indeksu dolnego sugeruje to drugie, ale wydaje się to trochę dziwne. X idi2Xi
whuber
1
Tylko trochę nietypowa uwaga, ale zauważ, że jest pomocniczy w odniesieniu do i jest równy stałej stałej ( powinien być lub podobny, myślę) prawie na pewno. μ i d 2 i ( ˉ X , S ) n - pXiX¯μidi2(X¯,S)np
kardynał
1
@ whuber - być może, aby podkreślić, że oblicza się go na podstawie obserwacji z próbki, a nie nowej obserwacji?
jbowman
1
@ whuber, w przybliżeniu zgodnie z tym, co powiedział jbowman - aby wskazać, że jest to statystyka na poziomie obserwacji (w przeciwieństwie do statystyki na poziomie próby, jak średnia próbki).
StasK
1
Rozkład jest beta, n / ( n - 1 ) 2 d 2 i ( ˉ X , S ) B ( p / 2 , ( n - p - 1 ) / 2 ) , ale wciąż szukam rozkładu d 2 i ( μ , S )di2(X¯,S)n/(n1)2di2(X¯,S)B(p/2,(np1)/2)di2(μ,S). Rozkłady nie są niezależne. di2

Odpowiedzi:

18

Sprawdź modelowanie mieszanki gaussowskiej poprzez wykorzystanie odległości Mahalanobisa ( link alternatywny ). Patrz strona nr 13, druga kolumna. Autorzy dali również dowód na wyprowadzenie dystrybucji. Dystrybucja jest skalowana w wersji beta. Daj mi znać, jeśli to nie zadziała. W przeciwnym razie mógłbym jutro sprawdzić każdą wskazówkę w książce SS Wilks.

vinux
źródło
4
Odpowiedź podana w artykule to: . Dzięki! n(n1)2di2(X¯,S)B(p2,np12)
StasK
9

Istnieją 3 odpowiednie rozkłady. Jak już wspomniano, gdy prawdziwe parametrów populacji są stosowane jest to rozkład chi-kwadrat z . Jest to również rozkład asymptotyczny z oszacowanymi parametrami i dużą wielkością próby.df=p

Inna odpowiedź podaje poprawny rozkład dla najczęstszej sytuacji, z oszacowanymi parametrami, gdy sama obserwacja jest częścią zestawu oszacowań: Jednakże, jeśli obserwacjaxijest niezależna od oceny parametrów, to rozkład jest proporcjonalna do dystrybucji F stosunek Fishera: (nd2(n-s)

n(d2)(n1)2Beta(p2,(np1)2).
xi
(nd2(np)(p(n1)(n+1))F(p,np)
Joe Sullivan
źródło
LATEX
czy możesz podać odniesienie do wzoru F.
eyaler
1
jeden odnośnik, sekcja 3 w Hardin, Johanna i David M. Rocke. 2005. „Rozkład dużych odległości”. Journal of Obliczeniowe i graficzne statystyki 14 (4): 928–46. doi: 10.1198 / 106186005X77685.
Josef,