Jeśli mam wielowymiarową normalną próbkę iid i zdefiniuję (który jest rodzajem odległości Mahalanobisa [kwadrat] od punktu próbki do wektora przy użyciu macierzy do ważenia), jaki jest rozkład (odległość Mahalanobisa do średnia próbki przy użyciu przykładowej macierzy kowariancji )?d 2 i ( b , A ) = ( X i - b ) ′ A - 1 ( X i - b ) a A
Patrzę na artykuł, który twierdzi, że jest to , ale jest to oczywiście błędne: zostałby uzyskany dla przy użyciu (nieznanego) średniego wektora populacji i macierz kowariancji. Po podłączeniu przykładowych analogów należy uzyskać rozkład Hotelling lub skalowany rozkład lub coś w tym rodzaju, ale nie . Nie mogłem znaleźć dokładnego wyniku ani w Muirhead (2005) , ani w Anderson (2003) , ani w Mardii, Kent i Bibby (1979, 2003) χ 2 p d 2 i ( μ , Σ ) T 2 F ( ⋅ ) χ 2 p. Najwyraźniej ci faceci nie zawracali sobie głowy diagnostyką wartości odstających, ponieważ rozkład normalny na wielu odmianach jest idealny i można go łatwo uzyskać za każdym razem, gdy zbiera się dane na wielu odmianach: - /.
Sprawy mogą być bardziej skomplikowane. Wynik rozkładu Hotelling opiera się na założeniu niezależności między częścią wektorową a częścią macierzową; Taka niezależność zachodzi dla i , ale to już nie zachodzi dla i S .ˉ X S X i S
Odpowiedzi:
Sprawdź modelowanie mieszanki gaussowskiej poprzez wykorzystanie odległości Mahalanobisa ( link alternatywny ). Patrz strona nr 13, druga kolumna. Autorzy dali również dowód na wyprowadzenie dystrybucji. Dystrybucja jest skalowana w wersji beta. Daj mi znać, jeśli to nie zadziała. W przeciwnym razie mógłbym jutro sprawdzić każdą wskazówkę w książce SS Wilks.
źródło
Istnieją 3 odpowiednie rozkłady. Jak już wspomniano, gdy prawdziwe parametrów populacji są stosowane jest to rozkład chi-kwadrat z . Jest to również rozkład asymptotyczny z oszacowanymi parametrami i dużą wielkością próby.df=p
Inna odpowiedź podaje poprawny rozkład dla najczęstszej sytuacji, z oszacowanymi parametrami, gdy sama obserwacja jest częścią zestawu oszacowań: Jednakże, jeśli obserwacjaxijest niezależna od oceny parametrów, to rozkład jest proporcjonalna do dystrybucji F stosunek Fishera: (nd2(n-s)
źródło