Zauważyłem we własnej pracy ten wzór podczas badania korelogramu przestrzennego w różnych odległościach, w którym pojawia się wzór w kształcie litery U w korelacjach. Mówiąc dokładniej, silne dodatnie korelacje w małych przedziałach odległości zmniejszają się wraz z odległością, a następnie osiągają dół w określonym punkcie, a następnie wspinają się z powrotem.
Oto przykład z bloga Conservation Ecology, Macroecology boisko (3) - autokorelacja przestrzenna .
Te silniejsze pozytywne autokorelacje na większych odległościach teoretycznie naruszają pierwszą zasadę geograficzną Toblera, więc spodziewam się, że będzie to spowodowane jakimś innym wzorcem w danych. Spodziewałbym się, że osiągną zero w pewnej odległości, a następnie zawisną wokół 0 w dalszej odległości (co zwykle dzieje się na wykresach szeregów czasowych z warunkami AR lub MA niskiego rzędu).
Jeśli wykonujesz wyszukiwanie grafiki Google , możesz znaleźć kilka innych przykładów tego samego rodzaju wzoru (zobacz tutaj, aby zobaczyć inny przykład). Użytkownik na stronie GIS opublikował dwa przykłady, w których wzór pojawia się dla I Morana, ale nie pojawia się dla C Geary'ego ( 1 , 2 ). W połączeniu z moją własną pracą wzorce te są obserwowalne dla oryginalnych danych, ale przy dopasowywaniu modelu do terminów przestrzennych i sprawdzaniu reszt nie wydają się one istnieć.
Nie spotkałem się z przykładami w analizie szeregów czasowych, które pokazują podobnie wyglądający wykres ACF, więc nie jestem pewien, jaki wzorzec w oryginalnych danych mógłby to spowodować. Scortchi w tym komentarzu spekuluje, że wzór sinusoidalny może być spowodowany pominiętym wzorem sezonowym w tych szeregach czasowych. Czy ten sam typ trendu przestrzennego może powodować ten wzór w korelogramie przestrzennym? A może to jakiś inny artefakt sposobu obliczania korelacji?
Oto przykład z mojej pracy. Próbka jest dość duża, a jasnoszare linie są zestawem 19 permutacji oryginalnych danych w celu wygenerowania rozkładu odniesienia (więc można zobaczyć, że wariancja w czerwonej linii będzie raczej niewielka). Chociaż fabuła nie jest tak dramatyczna, jak na pierwszym pokazanym obrazku, szyb, a następnie wzrost w dalszych odległościach pojawiają się dość łatwo na fabule. (Zauważ też, że kopalnia w mojej kopalni nie jest ujemna, podobnie jak inne przykłady, jeśli to materialnie czyni te przykłady innymi, których nie znam.)
Oto mapa gęstości jądra danych, aby zobaczyć rozkład przestrzenny, który wytworzył wspomniany korelogram.
źródło
Odpowiedzi:
Wyjaśnienie
Korelogram w kształcie litery U jest częstym zjawiskiem, gdy jego obliczenia są przeprowadzane w pełnym zakresie regionu, w którym występuje zjawisko. Jest to szczególnie widoczne w przypadku zjawisk podobnych do pióropuszów, takich jak miejscowe zanieczyszczenie gleby lub wód gruntowych lub, jak w tym przypadku, gdy zjawisko to jest związane z gęstością zaludnienia, która ogólnie zmniejsza się w kierunku granicy obszaru badań (Dystrykt Columbia, która ma gęstą zabudowę miejską i jest otoczona przedmieściami o mniejszej gęstości).
Przypomnijmy, że korelogram podsumowuje stopień podobieństwa wszystkich danych zgodnie z ich przestrzenną separacją. Wyższe wartości są bardziej podobne, niższe wartości mniej podobne. Gdy tylko pary punktów, w których największa przestrzenne rozdzielenie można osiągnąć to leżących na diametralnie przeciwległych stronach w mapie. W związku z tym korelogram porównuje wartości wzdłuż granicy. Gdy wartości danych ogólnie zmniejszają się w kierunku granicy, korelogram może porównywać tylko małe wartości do małych. Prawdopodobnie okaże się, że są bardzo podobne.
Dlatego w przypadku dowolnego zjawiska podobnego do pióropuszu lub innego przestrzennie nieimodalnego zjawiska możemy zatem przewidzieć, zanim jeszcze zgromadzimy dane, że korelogram prawdopodobnie spadnie, dopóki nie zostanie osiągnięta około połowa średnicy regionu, a następnie zacznie się zwiększać.
Efekt wtórny: zmienność oszacowań
Drugi efekt polega na tym, że dostępnych jest więcej par punktów danych do oszacowania korelogramu na krótkich odległościach niż na większych odległościach. Na średnich i długich dystansach „populacje opóźnione” takich par punktowych zmniejszają się. Zwiększa to zmienność empirycznego korelogramu. Czasami sama ta zmienność stworzy niezwykłe wzory na korelogramie. Najwyraźniej na górze („Moran's I”) wykorzystano duży zestaw danych, co zmniejsza ten efekt, jednak wzrost zmienności jest widoczny w większych amplitudach lokalnych fluktuacji na wykresie w odległości około 3500 lub więcej: dokładnie połowa maksymalna odległość.
Długoletnią zasadą w statystyce przestrzennej jest zatem unikanie obliczania korelogramu w odległościach większych niż połowa średnicy badanego obszaru i unikanie wykorzystywania tak dużych odległości do prognozowania (takich jak interpolacja).
Dlaczego okresowość przestrzenna nie jest pełną odpowiedzią
Literatura na temat statystyki przestrzennej rzeczywiście zauważa, że okresowo wzorce przestrzenne mogą powodować odbicie w korelogramie na większych odległościach. Geologowie górnictwa nazywają to „efektem dziury”. Istnieje klasa wariogramów zawierających termin sinusoidalny w celu jego modelowania. Jednak wszystkie te wariogramy narzucają również silny rozpad wraz z odległością i dlatego nie mogą uwzględniać skrajnego powrotu do pełnej korelacji pokazanej na pierwszym rysunku. Co więcej, w dwóch lub więcej wymiarach nie jest możliwe, aby zjawisko było zarówno izotropowe (w którym wszystkie korelogramy kierunkowe są takie same) i okresowe. Dlatego też okresowość samych danych nie uwzględnia tego, co pokazano.
Co można zrobić
Prawidłowym sposobem postępowania w takich okolicznościach jest zaakceptowanie tego, że zjawisko to nie jest stacjonarne i przyjęcie modelu, który opisuje go w kategoriach pewnego deterministycznego kształtu - „dryfu” lub „trendu” - z dodatkowymi fluktuacjami wokół tego dryfu które mogą mieć autokorelację przestrzenną (i czasową). Innym podejściem do danych takich jak liczba przestępstw jest badanie innej powiązanej zmiennej, takiej jak przestępczość na jednostkę populacji.
źródło