Otrzymuję dane z liczbą okazów z prośbą o interpolację przy użyciu metody kriging.
Po pewnym dochodzeniu okazało się, że wyniki krigingu (wykonane w ArcGIS Geostatystyczny Analyst z domyślnymi parametrami) nie są zadowalające. Wartości interpolowane znacznie różnią się od pomiarów (szczególnie najwyższych), a powierzchnia nie wygląda na niezawodną. Oto zdjęcie:
Przypuszczam, że głównym problemem jest niewystarczająca liczba próbek.
Ile punktów powinniśmy wykorzystać, aby uzyskać wiarygodne wyniki?
A może metoda kriginga nie jest odpowiednia dla tak zróżnicowanych wartości?
Odpowiedzi:
Kiedy używasz „wartości domyślnych”, tak naprawdę nie krigujesz, po prostu stosujesz algorytm kriging - który, jak odkryłeś, jest słaby, gdy używasz go z tymi danymi.
(Przywołam krótką wypowiedź na temat mydelniczki: moim zdaniem najszybszym sposobem na uzyskanie złych wyników za pomocą programu komputerowego jest zaakceptowanie jego domyślnych parametrów. ArcGIS jest jednym z najbogatszych, najmocniejszych środowisk do uzyskiwania złych wyników sposób. Morał polega na tym, że nie używaj oprogramowania do ważnej pracy, dopóki nie zrozumiesz, jak go kontrolować. Teraz od mydła ...)
Aby kriging zadziałał, musisz przeprowadzić intensywną wstępną analizę statystyczną danych zwanych „wariografią”. To, jak ostatecznie to osiągnie, zależy od danych, a także od twoich umiejętności geostatystycznych. (Całe książki zostały napisane na temat wariografii, w tym przełomowej Geostatystyki górniczej przez Journel & Huijbregts i Variowin Yvana Pannatiera.) Chociaż ludzie z powodzeniem krignęli zaledwie siedem punktów danych (w monografii Roberta Jernigana opublikowanej przez US EPA w koniec lat 80-tych), i w zasadzie można krige używając tylko dwóch lub trzech punktów ( zrobiłem to, aby zademonstrować algorytm ), podstawowe zasady w literaturze wynoszą od co najmniej 20 punktów do 100 punktów i konsensus wydaje się mieć około 30 punktów.
W twoim przypadku - chociaż nie opisujesz danych - masz pewne wyraźne problemy, w tym bardzo wypaczony rozkład i wyraźny brak dowodów stacjonarności. Wymagają one specjalnego traktowania statystycznego lub specjalistycznych form krigingu (takich jak przestrzenny uogólniony model liniowy). Nie uzyskasz dobrych wyników podczas krigowania takich danych, dopóki nie będziesz mieć bardzo dużej ilości danych.
Legenda sugeruje, że możesz próbować utworzyć siatkę gęstości zamiast faktycznie interpolować dane: chociaż wyniki obu procedur mogą wyglądać tak samo, robią one wyraźnie różne rzeczy i mają wyraźnie różne interpretacje. Ci interpolacji , gdy dane są uważane za próbki od jakiegoś hipotetycznego ciągłej powierzchni. Interpolacja przewiduje niespróbkowane wartości. Standardowe przykłady obejmują pomiary wysokości (które próbkują powierzchnię ziemi) i pomiary temperatury (które próbkują „pole temperatury”). Gęstość oblicza się, gdy masz pełne informacje o kwocieczegoś i chcesz przedstawić wygładzoną wersję tej kwoty na jednostkę powierzchni. (W przeciwieństwie do interpolacji, nie ma żadnych przewidywanych wartości niepróbkowanych). Standardowym przykładem jest gęstość zaludnienia: dane są liczbą wszystkich osobników w danym obszarze; wyjście to mapa gęstości zaludnienia.
źródło
Istnieją dwa oddzielne pytania, po pierwsze liczba lokalizacji danych, które mają być użyte do oszacowania / modelowania wariogramu, a po drugie liczba lokalizacji danych, które mają zostać użyte w równaniach krigingowych do interpolacji wartości w lokalizacji innej niż dane (lub w celu oszacowania wartości średniej nad regionem). Zakładając, że korzystasz z ruchomej okolicy wyszukiwania, więcej niż 15-20 lokalizacji danych w okolicy prawdopodobnie pogorszy wyniki, ponieważ (1) tylko najbliższe lokalizacje danych w okolicy wyszukiwania będą miały niezerowe wagi, (2) z większą liczbą danych lokalizacje rozmiar matrycy, która ma być odwrócona, jest większy i istnieje możliwość wzrostu źle uwarunkowanej matrycy. Całkowita liczba lokalizacji danych potrzebnych do krigingu zależy od liczby lokalizacji do interpolacji oraz wzorców przestrzennych tych punktów, a także lokalizacji danych. W skrócie,
W odniesieniu do szacowania / modelowania wariogramu jest to zupełnie inny problem, patrz na przykład
1991, Myers, DE, O wariogramie szacunkowym w postępowaniu pierwszego inter. Konf. Stat. Comp., Cesme, Turcja,
30 marca - 2 kwietnia 1987 r., Tom II, American Sciences Press, 261–281
1987, A. Warrick i DE Myers, Optymalizacja miejsc pobierania próbek do obliczeń wariograficznych Badania zasobów wodnych 23, 496-500
Można je pobrać ze strony www.u.arizona.edu/~donaldm
źródło