Analog 2D odchylenia standardowego?

19

Rozważ następujący eksperyment: grupa ludzi otrzymuje listę miast i proszona jest o zaznaczenie odpowiednich lokalizacji na (nieoznaczonej) mapie świata. Dla każdego miasta otrzymasz rozrzut punktów z grubsza wyśrodkowanych w danym mieście. Niektóre miasta, powiedzmy Stambuł, będą wykazywały mniej rozproszenia niż inne, mówią Moskwa.

Załóżmy, że dla danego miasta otrzymujemy zestaw próbek 2D , reprezentujących pozycję miasta (np. W lokalnym układzie współrzędnych) na mapie przypisanej testem temat . Chciałbym wyrazić wielkość „rozproszenia” punktów w tym zestawie jako pojedynczą liczbę w odpowiednich jednostkach (km).( x , y ) i{(xi,yi)}(x,y)i

W przypadku problemu 1D wybrałbym odchylenie standardowe, ale czy istnieje analog 2D, który można rozsądnie wybrać w sytuacji opisanej powyżej?

koletenbert
źródło
robić podbój?
RockScience
Dodałem znacznik przestrzenny, ponieważ przykład jest wyraźnie przestrzenny. Jeśli Ty (lub ktokolwiek inny) uważasz, że niepotrzebne jest wycofanie tego dodatku.
Andy W

Odpowiedzi:

12

Jedną rzeczą, której możesz użyć, jest miara odległości od punktu centralnego, , na przykład średnia próbki punktów , a może środek ciężkości obserwowanych punktów. Wtedy miarą dyspersji byłaby średnia odległość od tego punktu centralnego:( ¯ x , ¯ y )c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

gdzie . Istnieje wiele potencjalnych opcji pomiaru odległości, ale norma (np. Odległość euklidesowa) może być rozsądnym wyborem: L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

Istnieje jednak wiele innych potencjalnych wyborów. Zobacz http://en.wikipedia.org/wiki/Norm_%28mathematics%29

Makro
źródło
Chociaż odległość będzie niezerowa, jest to rzeczywiście dziwny wybór, ponieważ nie zgadza się w zdegenerowanym przypadku ze zwykłym odchyleniem standardowym w jednym wymiarze. Więc zamiast tego rozważ . zic2
Alex R.
6

Dobrym odniesieniem do metryk przestrzennego rozkładu wzorców punktowych jest podręcznik CrimeStat (w szczególności w przypadku tego pytania interesujący będzie rozdział 4 ). Podobnie do sugerowanego metrycznego Makra, odchylenie standardowe odległości jest podobne do odchylenia standardowego 2D (jedyną różnicą jest to, że podzielisz przez „n-2”, a nie „n” w pierwszej formule podanej przez makro).

Twój przykładowy eksperyment faktycznie przypomina mi, jak badania oceniają profilowanie przestępców geograficznych , a zatem wskaźniki użyte w tych pracach mogą być interesujące. W szczególności terminy precyzja i dokładność są używane dość często i byłyby istotne dla badania. Domysły mogą mieć niewielkie odchylenie standardowe (tj. Precyzyjne), ale nadal mają bardzo niską dokładność.

Andy W.
źródło
1

Myślę, że powinieneś używać „odległości Mahalanobisa” zamiast norm odległości euklidesowych, ponieważ bierze ona pod uwagę korelację zestawu danych i jest „niezmienna w skali”. Tutaj jest link:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Możesz także użyć opcji „Głębokość półprzestrzeni”. Jest to nieco bardziej skomplikowane, ale ma wiele atrakcyjnych właściwości. Głębokość półprzestrzeni (znana również jako głębokość położenia) danego punktu w stosunku do zbioru danych P jest minimalną liczbą punktów P leżących w dowolnej zamkniętej półpłaszczyźnie określonej przez linię przechodzącą przez a. Oto linki:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf

VitalStatistix
źródło
1
Rozumiem używanie odległości Mahalanobisa, gdy próbujesz powiedzieć, czy poszczególne punkty „należą” do zestawu, ale nie jest to średnia odległość euklidesowa od środka ciężkości bliżej związana ze zwykłą koncepcją wariancji / odchylenia standardowego stosowaną w ustawienie jednoczynnikowe?
Makro
2
Czy masz coś przeciwko opracowaniu stwierdzeń „uwzględnia korelację danych” i „czy skala jest niezmienna”? Jakie znaczenie ma jedna z tych rzeczy dla pytania?
Andy W
Zwykłe rozszerzenie odchylenia standardowego na wyższy wymiar jest oczywiście sposobem na obliczenie odległości określonego punktu od centrum danych - ale tutaj normalizujemy każdy punkt, co ułatwia analizę skupień lub wykrywanie wartości odstających. Ponadto odległość Mahalanobisa jest bardziej dostosowująca się do przypadków, w których rozkład punktów jest niesferyczny. W przypadkach sferycznie symetrycznych jest to to samo, co zwykle rozszerzone odchylenie standardowe - gdzie macierz kowariancji punktów danych redukuje się do macierzy tożsamości.
VitalStatistix
1

Ostatnio miałem podobny problem. Wygląda na to, że chcesz zmierzyć, jak dobrze punkty są rozproszone pod względem obszaru. Oczywiście dla danego pomiaru musisz zdać sobie sprawę, że jeśli wszystkie punkty są w linii prostej, odpowiedź wynosi zero, ponieważ nie ma dwuwymiarowej różnorodności.

Z obliczeń, które wykonałem, wymyśliłem:

SxxSyySxy²

W tym przypadku Sxx i Syy są wariancjami odpowiednio x i y, podczas gdy Sxy przypomina trochę mieszaną wariancję x i y.

Aby rozwinąć, zakładając, że istnieje n elementów, a reprezentuje średnią wartość x, a reprezentuje średnią y:xμyμ

Sxx=1ni=1n(xxμ)²
Syy=1ni=1n(yyμ)²
Sxy=1ni=1n(xxμ)(yyμ)

Mam nadzieję, że to zadziała dla ciebie.

Ponadto, jeśli zastanawiasz się, jak to zrobić w wyższych wymiarach, takich jak mierzenie rozkładu objętości lub objętości surteronu w 4 wymiarach, musisz utworzyć macierz taką jak ta:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

I kontynuuj przez tyle wymiarów, ile potrzebujesz. Powinieneś być w stanie obliczyć wartości S, biorąc pod uwagę powyższe definicje, ale dla różnych zmiennych.

Po utworzeniu macierzy weź wyznacznik, znajdź pierwiastek kwadratowy i gotowe.

Maszyna matematyczna
źródło
0

W tym konkretnym przykładzie - gdzie istnieje z góry ustalona „poprawna” odpowiedź - przerobiłbym współrzędne x / y, aby były biegunowymi współrzędnymi wokół miasta, które poproszono o zaznaczenie na mapie. Dokładność jest następnie mierzona względem komponentu promieniowego (średnia, sd itp.). „Średni kąt” można również zastosować do pomiaru obciążenia.

Dla siebie wciąż szukam dobrego rozwiązania, gdy nie ma z góry określonego punktu środkowego i nie podoba mi się pomysł wstępnego przejścia danych w celu utworzenia centroidu.

dsz
źródło