Co powoduje wzór w kształcie litery U w korelogramie przestrzennym?

12

Zauważyłem we własnej pracy ten wzór podczas badania korelogramu przestrzennego w różnych odległościach, w którym pojawia się wzór w kształcie litery U w korelacjach. Mówiąc dokładniej, silne dodatnie korelacje w małych przedziałach odległości zmniejszają się wraz z odległością, a następnie osiągają dół w określonym punkcie, a następnie wspinają się z powrotem.

Oto przykład z bloga Conservation Ecology, Macroecology boisko (3) - autokorelacja przestrzenna .

Korelogram Morana

Te silniejsze pozytywne autokorelacje na większych odległościach teoretycznie naruszają pierwszą zasadę geograficzną Toblera, więc spodziewam się, że będzie to spowodowane jakimś innym wzorcem w danych. Spodziewałbym się, że osiągną zero w pewnej odległości, a następnie zawisną wokół 0 w dalszej odległości (co zwykle dzieje się na wykresach szeregów czasowych z warunkami AR lub MA niskiego rzędu).

Jeśli wykonujesz wyszukiwanie grafiki Google , możesz znaleźć kilka innych przykładów tego samego rodzaju wzoru (zobacz tutaj, aby zobaczyć inny przykład). Użytkownik na stronie GIS opublikował dwa przykłady, w których wzór pojawia się dla I Morana, ale nie pojawia się dla C Geary'ego ( 1 , 2 ). W połączeniu z moją własną pracą wzorce te są obserwowalne dla oryginalnych danych, ale przy dopasowywaniu modelu do terminów przestrzennych i sprawdzaniu reszt nie wydają się one istnieć.

Nie spotkałem się z przykładami w analizie szeregów czasowych, które pokazują podobnie wyglądający wykres ACF, więc nie jestem pewien, jaki wzorzec w oryginalnych danych mógłby to spowodować. Scortchi w tym komentarzu spekuluje, że wzór sinusoidalny może być spowodowany pominiętym wzorem sezonowym w tych szeregach czasowych. Czy ten sam typ trendu przestrzennego może powodować ten wzór w korelogramie przestrzennym? A może to jakiś inny artefakt sposobu obliczania korelacji?


Oto przykład z mojej pracy. Próbka jest dość duża, a jasnoszare linie są zestawem 19 permutacji oryginalnych danych w celu wygenerowania rozkładu odniesienia (więc można zobaczyć, że wariancja w czerwonej linii będzie raczej niewielka). Chociaż fabuła nie jest tak dramatyczna, jak na pierwszym pokazanym obrazku, szyb, a następnie wzrost w dalszych odległościach pojawiają się dość łatwo na fabule. (Zauważ też, że kopalnia w mojej kopalni nie jest ujemna, podobnie jak inne przykłady, jeśli to materialnie czyni te przykłady innymi, których nie znam.)

wprowadź opis zdjęcia tutaj

Oto mapa gęstości jądra danych, aby zobaczyć rozkład przestrzenny, który wytworzył wspomniany korelogram.

Przestępstwa KDE w DC

Andy W.
źródło
1
Nie jestem pewien, czy jest to poprawne, więc nie zamieszczam tego jako odpowiedzi, ale domyślam się, że na mniejszych odległościach bardzo mało jest obserwacji w pobliżu, a te, które są bardzo podobne. Przy niewielkich odległościach więcej obserwacji staje się „w pobliżu”, ale są one mniej podobne, więc efekt wypłukuje się. Na dużych odległościach wszystko jest w pobliżu, więc duże, ale odległe efekty napędzają powrotem. (Piątka za studiowanie mojego rodzinnego miasta, btw.)ja
Sycorax mówi Przywróć Monikę
Widzę, skąd to pochodzi od @ user777, chociaż mogę się spodziewać podobnego argumentu, który spowodowałby, że wykres zmienia się na 0, ponieważ asymptotycznie sąsiedztwo przestrzenne staje się większe. Oznacza to, że wraz ze wzrostem sąsiedztwa środek sąsiedztwa będzie zbliżony do wielkiego środka. W mojej głowie (tak myślę) spowodowałoby to, że korelacja zmierzałaby do zera, choć nie do jednego, ale łatwo się myliłem. (Ten sam argument powinien mieć zastosowanie również do szeregów czasowych i nie pamiętam jednak, aby zobaczyć wykresy ACF dla szeregów czasowych, które wyglądają tak.)
Andy W
Kde DC przypomina mi trochę szachownicę. Jak wyglądałaby przestrzenna fabuła autokorelacji z szachownicy? Zastanawiam się, czy nie byłby wysoki z bliskiej odległości (ten sam kwadrat), nisko nieco dalej (inny kwadrat), a następnie znowu wyższy. Jednak nie wiem wystarczająco dużo na ten temat, aby wiedzieć, czy to jest odpowiedź.
gung - Przywróć Monikę
@ Gung, to zależy od tego, jak sformułujesz odległość w takim przypadku. W przypadku szachownicy z przyległością królowej byłoby to równoznaczne z ujemnym terminem auto-regresyjnym, który dla szeregów czasowych spowodowałby, że wykres ACF byłby alternatywą między korelacjami dodatnimi i ujemnymi (a fala w tym przypadku prawdopodobnie tłumiłaby się, prawdopodobnie bardzo szybko) ). Jest to jednak bardziej skomplikowane w analizie przestrzennej niż w szeregach czasowych. Nie scharakteryzowałbym tego wzoru jako szachownicy.
Andy W
2
Twój zestaw danych naprawdę nie ma wystarczającego zasięgu przestrzennego, dlatego powinieneś szacować autokowariancje w odległości 5 kilometrów (cały obszar nie jest większy niż 10 kilometrów i ogólnie chcesz mieć zestaw danych obejmujący wiele razy długość korelacji.) Wydaje mi się, że masz w zasadzie trzy „plamy” o wysokiej przestępczości, w przybliżeniu trójkątny kształt, z plamami oddalonymi od siebie o około 5K i odstępami między nimi. Dlatego nie jest zaskakujące, aby widzieć dodatnią korelację na tej długości.
Brian Borchers,

Odpowiedzi:

4

Wyjaśnienie

Korelogram w kształcie litery U jest częstym zjawiskiem, gdy jego obliczenia są przeprowadzane w pełnym zakresie regionu, w którym występuje zjawisko. Jest to szczególnie widoczne w przypadku zjawisk podobnych do pióropuszów, takich jak miejscowe zanieczyszczenie gleby lub wód gruntowych lub, jak w tym przypadku, gdy zjawisko to jest związane z gęstością zaludnienia, która ogólnie zmniejsza się w kierunku granicy obszaru badań (Dystrykt Columbia, która ma gęstą zabudowę miejską i jest otoczona przedmieściami o mniejszej gęstości).

Przypomnijmy, że korelogram podsumowuje stopień podobieństwa wszystkich danych zgodnie z ich przestrzenną separacją. Wyższe wartości są bardziej podobne, niższe wartości mniej podobne. Gdy tylko pary punktów, w których największa przestrzenne rozdzielenie można osiągnąć to leżących na diametralnie przeciwległych stronach w mapie. W związku z tym korelogram porównuje wartości wzdłuż granicy. Gdy wartości danych ogólnie zmniejszają się w kierunku granicy, korelogram może porównywać tylko małe wartości do małych. Prawdopodobnie okaże się, że są bardzo podobne.

Dlatego w przypadku dowolnego zjawiska podobnego do pióropuszu lub innego przestrzennie nieimodalnego zjawiska możemy zatem przewidzieć, zanim jeszcze zgromadzimy dane, że korelogram prawdopodobnie spadnie, dopóki nie zostanie osiągnięta około połowa średnicy regionu, a następnie zacznie się zwiększać.

Efekt wtórny: zmienność oszacowań

Drugi efekt polega na tym, że dostępnych jest więcej par punktów danych do oszacowania korelogramu na krótkich odległościach niż na większych odległościach. Na średnich i długich dystansach „populacje opóźnione” takich par punktowych zmniejszają się. Zwiększa to zmienność empirycznego korelogramu. Czasami sama ta zmienność stworzy niezwykłe wzory na korelogramie. Najwyraźniej na górze („Moran's I”) wykorzystano duży zestaw danych, co zmniejsza ten efekt, jednak wzrost zmienności jest widoczny w większych amplitudach lokalnych fluktuacji na wykresie w odległości około 3500 lub więcej: dokładnie połowa maksymalna odległość.

Długoletnią zasadą w statystyce przestrzennej jest zatem unikanie obliczania korelogramu w odległościach większych niż połowa średnicy badanego obszaru i unikanie wykorzystywania tak dużych odległości do prognozowania (takich jak interpolacja).

Dlaczego okresowość przestrzenna nie jest pełną odpowiedzią

Literatura na temat statystyki przestrzennej rzeczywiście zauważa, że ​​okresowo wzorce przestrzenne mogą powodować odbicie w korelogramie na większych odległościach. Geologowie górnictwa nazywają to „efektem dziury”. Istnieje klasa wariogramów zawierających termin sinusoidalny w celu jego modelowania. Jednak wszystkie te wariogramy narzucają również silny rozpad wraz z odległością i dlatego nie mogą uwzględniać skrajnego powrotu do pełnej korelacji pokazanej na pierwszym rysunku. Co więcej, w dwóch lub więcej wymiarach nie jest możliwe, aby zjawisko było zarówno izotropowe (w którym wszystkie korelogramy kierunkowe są takie same) i okresowe. Dlatego też okresowość samych danych nie uwzględnia tego, co pokazano.

Co można zrobić

Prawidłowym sposobem postępowania w takich okolicznościach jest zaakceptowanie tego, że zjawisko to nie jest stacjonarne i przyjęcie modelu, który opisuje go w kategoriach pewnego deterministycznego kształtu - „dryfu” lub „trendu” - z dodatkowymi fluktuacjami wokół tego dryfu które mogą mieć autokorelację przestrzenną (i czasową). Innym podejściem do danych takich jak liczba przestępstw jest badanie innej powiązanej zmiennej, takiej jak przestępczość na jednostkę populacji.

Whuber
źródło
Dziękuję, czy uważasz, że wymagana jest ad hoc ważenie efektów krawędziowych? (Może to być przesada w analizie eksploracyjnej resztek modelowych.) W mojej rozprawie faktycznie używam nieliniowego dryfu przestrzennego i warunków trendu - przestępczość na jednostkę populacji jest denerwująca z wielu powodów. Populacja mieszkalna nie jest tak naprawdę podstawowym punktem zainteresowania - bardziej przypomina spacery po populacji. W obszarach miejskich może to puchnąć o wiele (20 ~ 30 razy) w określonych godzinach i jest bardziej związane z instytucjami niemieszkalnymi (praca i rozrywka).
Andy W
Masz wiele możliwości, Andy, ponieważ nie ma sposobu na zidentyfikowanie unikalnego modelu: musisz zdecydować, gdzie chcesz przestać modelować wartości pod względem dryfu przestrzennego i rozpocząć modelowanie ich (a raczej ich reszt) za pomocą stochastyczny model przestrzenny. Korelogram w kształcie litery U może być rozumiany jako mocne wskazanie, że potrzebny jest pewien mechanizm modelowania znoszenia. Znormalizowanie według odpowiedniej populacji (nawet jeśli można to tylko rażąco oszacować) jest jedną z dostępnych metod. Innym jest uwzględnienie miar populacji (lub wykorzystania itp.) Jako zmiennych towarzyszących.
whuber
Zbliżyłem się, używając jedynie szerokiej gamy miar użytkowania gruntów (bary, stacje benzynowe, szpital, szkoły itp.) Oraz warunków przestrzennych. Oto mapa prognoz utrzymujących stałe te inne zmienne towarzyszące . Jednak nadal istnieje niewielka resztkowa autokorelacja. Sceptycznie podchodzę do błędu, jak bardzo pomoże dasymetryczne mapowanie populacji do małych miejsc, ale wyobrażam sobie, że ostatecznie przeprowadzę tę analizę.
Andy W
Jest to podejście oparte na zasadach: niech teoria kieruje rozwojem elementu dryfu modelu, a następnie ocenia reszty, aby zdecydować, czy warto byłoby modelować ich autokorelację przestrzenną. W wielu przypadkach większość pozornych powiązań przestrzennych jest odpowiednio wyjaśniona terminami znoszenia i rzadko potrzeba pełnej maszyny geostatystycznej. Intrygującym aspektem problemu jest to, że podstawową miarą (odległość przestrzenną) jest prawdopodobnie czas podróży lub odległość podróży wzdłuż sieci ulic, a nie odległość euklidesowa.
whuber