Czy w przypadku rastrów o różnych rozdzielczościach należy ponownie próbkować do najwyższej lub najniższej rozdzielczości?

16

Szukam zaleceń dotyczących najlepszych praktyk postępowania z warstwami danych rastrowych o różnych rozdzielczościach i prognozach. Porada, którą otrzymałem, to zawsze przeskalowywanie do warstwy o najniższej rozdzielczości przed wykonaniem jakiejkolwiek analizy, ale wydaje mi się to ogromną stratą precyzji i nigdy nie otrzymałem solidnego wyjaśnienia, dlaczego należy to zrobić.

Kiedy uzasadnione jest ponowne próbkowanie w celu dopasowania do siatki o wyższej rozdzielczości i jakie są implikacje w porównaniu do ponownego próbkowania do niższej rozdzielczości?

Zdaję sobie sprawę, że jest to prawdopodobnie wysoce zależne od sytuacji. Głównie szukam ogólnych wskazówek, ale oto mój konkretny scenariusz w celach informacyjnych:

Scenariusz: zamierzam zbudować model regresji przestrzennej przewidujący użytkowanie gruntów w oparciu o różnorodne warstwy środowiskowe i społeczno-gospodarcze. Moja mapa zagospodarowania przestrzennego pochodzi od Landsata i dlatego mam rozdzielczość 30m. Przykłady warstw objaśniających obejmują SRTM DEM (3 sekundy łukowe, ~ 90 m) i bioklimatyczne warstwy klimatyczne (30 sekund łukowych, ~ 1 km).

Matt SM
źródło
1
Czy możesz podać więcej informacji na temat modelu regresji i metody realizacji? +1 za dobrze skonstruowane, interesujące pytanie!
Aaron
Porównuję lesistość w dwóch momentach i jako moją odpowiedź wykorzystuję model regresji logistycznej z (binarnym) prawdopodobieństwem wylesienia. Zaimplementuję to w R.
Matt SM

Odpowiedzi:

17

W rzeczywistości nie wszystko zależy od sytuacji i dotyczy wyłącznie błędu statystycznego.

Za każdym razem, gdy próbujesz ponownie do wyższej rozdzielczości, wprowadzasz fałszywą dokładność. Rozważ zestaw danych mierzonych tylko w stopach w liczbach całkowitych. Dowolny punkt może znajdować się w odległości +/- 0,5 stopy od jego rzeczywistej lokalizacji. Jeśli próbujesz ponownie do najbliższej dziesiątej, mówisz teraz, że podana liczba nie jest większa niż +/- 0,1 od jej rzeczywistej lokalizacji. Wiesz jednak, że twoje pierwotne pomiary nie były tak dokładne i teraz pracujesz w granicach błędu. Jeśli jednak pójdziesz w drugą stronę i przeskalujesz do niższej rozdzielczości, wiesz, że każda podana wartość punktowa jest zdecydowanie dokładna, ponieważ mieści się w marginesie błędu większej próbki.

Poza matematyką statystyczną pierwsze miejsce, jakie przychodzi na myśl, to geodezja. Starsze ankiety określały tylko łożyska z dokładnością do pół minuty i odległości do jednej dziesiątej stopy. Wykreślenie trawersu granicznego za pomocą tych pomiarów może często prowadzić do błędnego zamknięcia (punkt początkowy i końcowy powinny być takie same, ale nie są) mierzone w stopach. Współczesne ankiety sięgają co najmniej najbliższej sekundy i setnej części stopy. Na wartości pochodne (takie jak powierzchnia działki) może znacząco wpływać różnica precyzji. Pochodną samą wartość można również podać jako zbyt precyzyjną.

W przypadku analizy, jeśli przeskalujesz do wyższej rozdzielczości, wyniki będą oznaczały znacznie większą dokładność niż dane, na których są oparte. Rozważ swój SRTM na 90m. Niezależnie od metody pomiaru wysokości (średni / maksymalny / średni zwrot), najmniejszą jednostką (pikselem), którą można odróżnić od sąsiadów, jest 90 m. Jeśli przeskalujesz to do 30 m, albo:

  • zakładasz, że wszystkie dziewięć wynikowych pikseli ma tę samą wysokość, podczas gdy w rzeczywistości może tylko jeden - środek lub lewy górny - (lub żaden!) jest
  • interpolujesz między pikselami, tworząc wartości pochodne, których wcześniej nie było

Zatem w obu przypadkach wprowadzasz fałszywą dokładność, ponieważ twoje nowe podpróbki nie zostały faktycznie zmierzone.

Powiązane pytanie: Jakie praktyki są dostępne w celu modelowania przydatności gruntów?

Chris W.
źródło
Z pewnością dotyczy to danych punktowych. Zastanawiam się jednak, czy jest inaczej w przypadku danych rastrowych, które uśredniają stale zmieniającą się wielkość przestrzenną, w przypadku której istnieje precyzja lokalizacji i dokładność mierzonej wielkości. Również różne wielkości mają różne poziomy zmienności przestrzennej. Na przykład ponowne próbkowanie danych wysokości do wyższej rozdzielczości musi wprowadzać więcej błędów na obszarach górskich niż na prerii.
Matt SM
@MattSM Dotyczy to wszystkich danych przestrzennych i jest powiększone o błąd statystyczny mierzonej wielkości. Rozważ swój SRTM na 90m. Niezależnie od metody pomiaru wysokości (średni / maksymalny / średni zwrot), najmniejszą jednostką (pikselem), którą można odróżnić od sąsiadów, jest 90 m. Jeśli przeskalujesz to do 30 m, mówisz teraz, że wszystkie 9 uzyskanych pikseli ma tę samą wysokość, podczas gdy w rzeczywistości może tylko jeden (lub żaden!) Jest - środek lub lewy górny róg. Lub interpolujesz między pikselami, tworząc wartości, których wcześniej nie było, a tym samym fałszywą dokładność. I tak, zakres wartości odpowiada potencjalnemu błędowi.
Chris W
Na marginesie można interpolować określone cechy w szczególnych przypadkach, w których wzór jest wyraźnie ograniczony - jedną z niegeograficznych cech, które przychodzą na myśl, jest rekonstrukcja informacji z tablicy rejestracyjnej ze zdjęć, których rozdzielczość jest zbyt niska, aby ją odczytać. Ale musisz wiedzieć, na co patrzysz. Pamiętam niektóre przypadki, w których rekonstrukcja tablicy rejestracyjnej nie powiodła się, ponieważ tablica była zapisana pozaeuropejskim skryptem, takim jak arabski.
Steve Barnes
Co z rastrami o rozdzielczości opartej na łuku, czy nie mają komórek siatki, które mogą mieć różne obszary / proporcje w różnych obszarach?
CMCDragonkai
@CMCDragonkai Nie jestem pewien, jak sobie z tym poradzić, ponieważ przechodzisz do reprezentacji danych a format i koordynacja systemów / projekcji. Tak, obszar geograficzny w rastrze niekoniecznie jest tak jednolity jak piksele kwadratowe (lub inny współczynnik kształtu). Wiele specyfikacji danych satelitarnych powie ci o tym (piksel ma wartość x nadir, ay y na krawędzi pokosu). Ale nadal występują problemy z ponownym próbkowaniem - jeśli tylko to tylko pogarsza problem. (I przepraszam za opóźnienie, nie byłem na SE od jakiegoś czasu.)
Chris W