Porównywanie dwóch wzorów punktów przestrzennych?

41

Jeśli mam dwa rozkłady wzorców punktowych w tym samym regionie geograficznym, w jaki sposób miałbym dokonać wizualnego i ilościowego porównania tych dwóch rozkładów?

Załóżmy również, że mam wiele punktów w mniejszym regionie, więc samo wyświetlanie mapy pinezek jest mało pouczające.

Andy W.
źródło

Odpowiedzi:

32

Jak zawsze zależy to od twoich celów i charakteru danych. W przypadku całkowicie zmapowanych danych potężnym narzędziem jest funkcja L Ripleya, bliski krewny funkcji K Ripleya . Wiele oprogramowania może to obliczyć. ArcGIS może już to zrobić; Nie sprawdziłem CrimeStat to robi. Tak zrobić geoda i R . Przykład użycia z powiązanymi mapami pojawia się w

Sinton, DS i W. Huber. Mapowanie polki i jej dziedzictwa etnicznego w Stanach Zjednoczonych. Journal of Geography Vol. 106: 41–47. 2007

Oto zrzut ekranu CrimeStat wersji „funkcji L” Ripleya K:

Zrzut ekranu funkcji K Ripleya

Niebieska krzywa dokumentuje bardzo nielosowy rozkład punktów, ponieważ nie leży między czerwonymi i zielonymi pasmami otaczającymi zero, w którym powinien znajdować się niebieski ślad funkcji L rozkładu losowego.

W przypadku próbkowanych danych wiele zależy od charakteru próbkowania. Dobrym źródłem tego, dostępne dla osób o ograniczonej (ale nie całkowicie nieobecny) w tle matematyki i statystyki, jest podręcznik Stevena Thompsona na Sampling .

Zasadniczo większość porównań statystycznych można zilustrować graficznie, a wszystkie porównania graficzne odpowiadają lub sugerują statystycznego odpowiednika. Dlatego wszelkie pomysły uzyskane z literatury statystycznej prawdopodobnie sugerują przydatne sposoby mapowania lub innego graficznego porównywania dwóch zestawów danych.

Whuber
źródło
Dziękuję za artykuł Dixon, który wydaje się być doskonałym źródłem. Nigdy nie spotkałem się z rozróżnieniem między interakcją przestrzenną a losowym oznaczaniem wzorów o wielu odmianach. Będę musiał przeczytać.
Andy W
+1 Dobre zasoby. Więc stary truizm rybacki, że „90% ryb znajduje się w 10% jeziora” naprawdę zależy od metody pobierania próbek?
Kirk Kuykendall,
@Kirk Dla wielu z nas 0% ryb znajduje się w 10% jeziora, do którego udało nam się dotrzeć!
whuber
14

Uwaga: następujące komentarze zostały zredagowane po komentarzu Whubera

Możesz zastosować podejście Monte Carlo. Oto prosty przykład. Załóżmy, że chcesz ustalić, czy rozkład zdarzeń przestępczych A jest statystycznie podobny do rozkładu B, możesz porównać statystyki między zdarzeniami A i B z empirycznym rozkładem takiej miary dla losowo przypisanych „markerów”.

Na przykład, biorąc pod uwagę rozkład A (biały) i B (niebieski),

wprowadź opis zdjęcia tutaj

losowo przypisujesz etykiety A i B do WSZYSTKICH punktów w połączonym zestawie danych. To jest przykład pojedynczej symulacji:

wprowadź opis zdjęcia tutaj

Powtarzasz to wiele razy (powiedzmy 999 razy) i dla każdej symulacji obliczasz statystykę (w tym przykładzie statystyczną średnią najbliższego sąsiada) przy użyciu losowo oznaczonych punktów. Poniższe fragmenty kodu znajdują się w R (wymaga użycia biblioteki spatstat ).

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

Następnie możesz porównać wyniki graficznie (czerwona pionowa linia to oryginalna statystyka),

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

wprowadź opis zdjęcia tutaj

lub numerycznie.

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

Pamiętaj, że średnia statystyczna najbliższego sąsiada może nie być najlepszą miarą statystyczną twojego problemu. Statystyki takie jak funkcja K mogą być bardziej odkrywcze (patrz odpowiedź Whubera).

Powyższe można łatwo wdrożyć w ArcGIS za pomocą Modelbuilder. W pętli losowo przypisuje wartości atrybutów do każdego punktu, a następnie oblicza statystyki przestrzenne. Powinieneś być w stanie zliczyć wyniki w tabeli.

MannyG
źródło
2
Możesz rozważyć test permutacji zamiast podejścia polegającego na gęstości jądra, Manny. Hipotezą zerową jest to, że niebieskie i białe etykiety są niezależne od punktów. Aby to sprawdzić, zastosuj statystyki odpowiednie dla okolicy (takie jak średnia najbliższa odległość między niebieskimi i białymi kropkami, podróżowanie wzdłuż ulic). Losowo przypisz kolory do wszystkich kropek, zachowując te same ilości niebieskiego i białego, i ponownie oblicz statystyki. Powtórz wiele razy, aby oszacować zerowy rozkład statystyki. Odwołaj rzeczywistą wartość statystyki do tego rozkładu, aby uzyskać wartość p.
whuber
Dzięki, kurwa. Nigdy nie przyszło mi do głowy, aby postrzegać to jako znaczący problem punktowy. Zaktualizowałem swoją odpowiedź, aby odzwierciedlić to podejście. Jednak nie jest dla mnie jasne, dlaczego moje oryginalne podejście (tj. Użycie siatki gęstości jądra do generowania losowych punktów) spowodowało inny wynik. W rzeczywistości (moje oryginalne rozwiązanie) nie odzwierciedlało wiernie faktu, że zarówno A, jak i B pochodzą z podobnego procesu. Czy to dlatego, że metoda zagęszczenia jądra nie wykorzystuje szczegółów dostarczonych nam przez dane punktowe?
MannyG
1
Gęstość jądra ma niewielki element arbitralności (związany z wyborem połowy szerokości). To może coś zmienić. Jest to również nieco usunięte z tego, co się naprawdę dzieje: istnieje proces, w którym powstają punkty; widzisz jedną realizację tego procesu; tworzysz z niego KDE ; następnie czerpiesz nowe realizacje z tego KDE. W efekcie po prostu odtwarzasz nowe konfiguracje, podobnie jak pojedyncza konfiguracja, którą obserwujesz. W podejściu permutacji hipoteza zerowa, że ​​oba rozkłady są takie same, uzasadnia permutację oznaczeń: jest to bezpośrednie i silne.
whuber
1
Dzięki za wkład, dam więcej pełnych komentarzy, gdy będę miał więcej czasu. Dobrze byłoby zanotować ten kod R (czy wspomniałeś nawet, że jest to kod R w odpowiedzi?) I wykorzystuje on funkcje w spatstatpakiecie.
Andy W
2
+1, Jedną z fajnych rzeczy w stosowaniu takich testów permutacyjnych jest 1), gdy jest ograniczony do specyficzności geokodera (w większości przypadków zakres adresów lub adresów dla danych o przestępczości), ocenianie wzorców punktowych w porównaniu z całkowitą przypadkowością przestrzenną nie robi zbyt wiele dużo rozsądku. 2) Takie testy permutacji pozwalają uniknąć problemów z efektami krawędziowymi. Oczywiście są to nadmierne uogólnienia, ale myślę, że takie ramy można uogólnić do oceny wielu różnych typów statystyk wzorców punktowych.
Andy W
4

Możesz sprawdzić CrimeStat.

Według strony internetowej:

CrimeStat to program statystyki przestrzennej do analizy miejsc incydentów kryminalnych, opracowany przez Ned Levine & Associates, który został sfinansowany z dotacji z National Institute of Justice (granty 1997-IJ-CX-0040, 1999-IJ-CX-0044, 2002-IJ-CX-0007 i 2005-IJ-CX-K037). Program jest oparty na systemie Windows i współpracuje z większością stacjonarnych programów GIS. Celem jest dostarczenie dodatkowych narzędzi statystycznych, które pomogą organom ścigania i badaczom wymiaru sprawiedliwości w podejmowaniu wysiłków związanych z mapowaniem przestępstw. CrimeStat jest używany przez wiele departamentów policji na całym świecie, a także przez sądownictwo karne i innych badaczy. Najnowsza wersja to 3.3 (CrimeStat III).

RK
źródło
2

Prostym i szybkim podejściem mogłoby być stworzenie map cieplnych i mapy różnic tych dwóch map cieplnych. Powiązane: Jak budować skuteczne mapy cieplne?

podmrok
źródło
3
Niestety, różnicowanie dwóch interpolowanych lub wygładzonych map zwykle mówi więcej o metodzie interpolacji lub wygładzaniu niż o danych :-(. Jeśli musisz interpolować, staraj się to zrobić dobrze (np. Krige po wykonaniu EDA i wariografii) i po prostu interpoluj jeden z zestawów danych. Możesz porównać rzeczywiste dane w jednym zestawie z wartościami interpolowanymi drugiego, eliminując w ten sposób połowę błędu przy porównywaniu dwóch interpolowanych map. Uwaga: interpolacja nie jest poprawna dla wielu rodzajów danych, a wygładzanie jest nieodpowiednie dla inne rodzaje danych
whuber
Zgadzam się, że ta metoda nie jest odpowiednia dla wielu rodzajów danych wejściowych. Myślę, że może to dać dobre pierwsze wrażenie podczas analizy wzorów gęstości punktów.
podmroku
Nie mam wątpliwości, że masz rację, gdy interpolacja jest wykonywana przez eksperta i interpretowana rozsądnie.
whuber
2

Załóżmy, że dokonałeś przeglądu literatury na temat autokorelacji przestrzennej. ArcGIS posiada różne narzędzia wskaż i kliknij, aby to zrobić za pomocą skryptów Toolbox: Narzędzia statystyki przestrzennej -> Analiza wzorców .

Możesz pracować wstecz - znajdź narzędzie i przejrzyj zaimplementowany algorytm, aby sprawdzić, czy pasuje on do Twojego scenariusza. Kiedyś użyłem Indeksu Morana, badając zależność przestrzenną w występowaniu minerałów glebowych.

Erick
źródło
2

W wielu programach statystycznych można uruchomić dwuwymiarową analizę korelacji, aby określić poziom korelacji statystycznej między dwiema zmiennymi a poziomem istotności. Następnie można wykonać kopię zapasową wyników statystycznych, mapując jedną zmienną za pomocą schematu chloropleta, a drugą zmienną za pomocą stopniowanych symboli. Po nałożeniu można następnie określić, które obszary wykazują relacje wysokie / wysokie, wysokie / niskie i niskie / niskie relacje przestrzenne. Ta prezentacja ma kilka dobrych przykładów.

Możesz także wypróbować unikalne oprogramowanie do geowizualizacji. Bardzo podoba mi się CommonGIS dla tego rodzaju wizualizacji. Możesz wybrać dzielnicę (przykład), a wszystkie przydatne statystyki i wykresy będą dostępne od razu. To sprawia, że ​​analiza map wielu zmiennych jest bardzo prosta.

Michał Markieta
źródło
2
To dobre pomysły, ale zauważam, że przykłady, do których się odwołujesz, są skuteczne, ponieważ atrybuty odpowiadają wspólnym zestawom funkcji. W niniejszym pytaniu funkcje mają różne lokalizacje, a lokalizacje te są zmiennymi losowymi (na przykład nie stałymi jednostkami administracyjnymi). Są to ważne komplikacje, ponieważ teraz musimy znaleźć pewną sensowną procedurę powiązania wartości w jednej lokalizacji z wartościami w innych lokalizacjach i musimy poradzić sobie z losowym charakterem samych lokalizacji.
whuber
Dzięki za wyjaśnienie! Źle odczytałem OP i założyłem, że było to dla dwóch niezależnych zmiennych, które dzieliły położenie / zasięg geograficzny (jak w DA / CT itp.)
Michael Markieta
1

Świetna byłaby do tego analiza kwadratu. Jest to podejście GIS umożliwiające podkreślenie i porównanie wzorów przestrzennych różnych punktowych warstw danych.

Zarys analizy kwadratu, która kwantyfikuje relacje przestrzenne między wielopunktowymi warstwami danych, można znaleźć na stronie http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdf .


źródło
1
(1) Link to 404 (dlatego prosimy o odpowiedzi zawierające podsumowania wszystkich linków). (2) Jak dokładnie analiza kwadratowa porównałaby dwa rozkłady punktowe ?
whuber
(1) Link może teraz działać. (2) Analiza kwadratu dzieli dany obszar na jednostki równej wielkości, odpowiednio zwymiarowane. Następnie wykorzystuje analizę prawdopodobieństwa, aby ustalić rzeczywistą częstotliwość punktów w każdym kwadracie w porównaniu do wartości oczekiwanej dla każdej częstotliwości. Używając polecenia gęstości punktów i statystyk strefowych jako narzędzi tabelarycznych w rozszerzeniu analityka przestrzennego dla ArcMap, możemy wyróżnić obszary w pobliżu lokalizacji punktów o wysokiej gęstości, oprócz podsumowania tych klas obiektów punktowych do analizy regresji.
Opisałeś procedurę jednoznacznej analizy rozkładów punktów. Można go dostosować (poprzez ocenę korelacji kwadratowych) do porównania stopnia współwystępowania tych dwóch procesów, ale ma dwa znaczące ograniczenia. Po pierwsze, nie bada związków między procesami w funkcji odległości; po drugie, dzieląc punkty na kwadraty, traci moc. Utrata mocy oznacza, że ​​możesz nie zidentyfikować ważnych wzorców lub oznacza to, że musisz zebrać więcej danych, aby osiągnąć cele dochodzenia.
whuber
Użyłem tej „procedury” do wielowymiarowej analizy rozkładów punktów. Chociaż wiąże się to z utratą mocy, umożliwia także wizualne i ilościowe porównanie dwóch rozkładów wzorów punktowych na unikalnych poziomach agregacji (tutaj rozwiązanie pierwotnego pytania).
Mam nadzieję, że to, co przeczytałeś na naszej stronie, zainspiruje Cię do rozważenia alternatywnych podejść w przyszłości: zwiększą one twoją zdolność do maksymalnego wykorzystania twoich danych i ograniczonych zasobów badawczych.
whuber