Jakie są te procedury
Mimo że OLS i GWR mają wiele aspektów dotyczących formułowania danych statystycznych, są one wykorzystywane do różnych celów:
- OLS formalnie modeluje globalne relacje określonego rodzaju. W najprostszej postaci każdy rekord (lub przypadek) w zbiorze danych składa się z wartości x ustalonej przez eksperymentatora (często nazywanej „zmienną niezależną”) i innej wartości y, która jest obserwowana („zmienna zależna” ). OLS zakłada, że y jest w przybliżeniuzwiązane z x w szczególnie prosty sposób: mianowicie istnieją (nieznane) liczby „a” i „b”, dla których a + b * x będzie dobrym oszacowaniem y dla wszystkich wartości x, którymi eksperymentator może być zainteresowany . „Dobre oszacowanie” potwierdza, że wartości y mogą i będą różnić się od takich prognoz matematycznych, ponieważ (1) tak naprawdę robią - natura rzadko jest tak prosta jak równanie matematyczne - i (2) y mierzy się błąd. Oprócz oszacowania wartości aib, OLS określa również ilościowo zmienność y. Daje to OLS możliwość ustalenia statystycznego znaczenia parametrów a i b.
Oto dopasowanie OLS:
- GWR służy do badania lokalnych relacji. W tym ustawieniu nadal występują pary (x, y), ale teraz (1) zwykle obserwuje się zarówno xiy, jak i żaden z nich nie może być wcześniej określony przez eksperymentatora, i (2) każdy rekord ma położenie przestrzenne, z . Dla dowolnej lokalizacji z (niekoniecznie nawet tam, gdzie są dostępne dane) GWR stosuje algorytm OLS do sąsiednich wartości danych w celu oszacowania, w którym tylko współrzędne przestrzenne są używane do określenia sąsiedztwa. Jego wynik służy do sugerowania zależność specyficzną lokalizacji między y i x w postaci y = a (z) + b (z) * x. Notacja „(z)” podkreśla, że współczynniki aib różnią się w zależności od lokalizacji. Jako taki, GWR jest specjalistyczną wersją lokalnie ważonych wygładzaczy jaki sposób wartości xiy kowariancji w regionie przestrzennym. Warto zauważyć, że często nie ma powodu, aby wybrać, które z „x” i „y” powinny odgrywać rolę zmiennej niezależnej i zmiennej zależnej w równaniu, ale po zmianie tych ról wyniki się zmienią ! Jest to jeden z wielu powodów, dla których GWR należy uznać za eksploracyjny - wizualną i konceptualną pomoc w zrozumieniu danych - zamiast metody formalnej.
Oto lokalnie ważona gładka. Zauważ, jak może podążać za widocznymi „poruszeniami” w danych, ale nie przechodzi dokładnie przez każdy punkt. (Można to zrobić, aby przechodzić przez punkty lub podążać mniejszymi ruchami, zmieniając ustawienie w procedurze, dokładnie tak samo, jak GWR można wykonać tak, aby śledził dane przestrzenne mniej więcej dokładnie, zmieniając ustawienia w swojej procedurze.)
Intuicyjnie pomyśl o OLS jako o dopasowaniu sztywnego kształtu (takiego jak linia) do wykresu rozrzutu par (x, y) i GWR jako umożliwiającym dowolne poruszanie się tego kształtu.
Wybieranie między nimi
W niniejszym przypadku, chociaż nie jest jasne, co mogą oznaczać „dwie odrębne bazy danych”, wydaje się, że użycie OLS lub GWR do „sprawdzenia” relacji między nimi może być niewłaściwe. Na przykład, jeśli bazy danych reprezentują niezależne obserwacje tej samej ilości w tym samym zestawie lokalizacji, wówczas (1) OLS jest prawdopodobnie niewłaściwy, ponieważ zarówno x (wartości w jednej bazie danych), jak i y (wartości w drugiej bazie danych) powinny być postrzegany jako zmienny (zamiast myśleć o x jako ustalonym i dokładnie przedstawionym) i (2) GWR jest odpowiedni do badania związku między xiy, ale nie może być użyty do walidacjicokolwiek: na pewno znajdziesz związki, bez względu na wszystko. Ponadto, jak wcześniej zauważono, symetryczne role „dwóch baz danych” wskazują, że jedną z nich można wybrać jako „x”, a drugi jako „y”, co prowadzi do dwóch możliwych wyników GWR, które z pewnością będą się różnić.
Oto lokalnie ważone wygładzenie tych samych danych, odwracające role xiy. Porównaj to z poprzednią fabułą: zauważ, jak dużo bardziej ogólne jest dopasowanie i jak różni się również w szczegółach.
Wymagane są różne techniki w celu ustalenia, że dwie bazy danych dostarczają tych samych informacji lub oceny ich względnego błędu lub względnej precyzji. Wybór techniki zależy od właściwości statystycznych danych i celu walidacji. Na przykład bazy danych pomiarów chemicznych będą zazwyczaj porównywane przy użyciu technik kalibracyjnych .
Interpretacja I Morana
Trudno powiedzieć, co oznacza „Moran's I dla modelu GWR”. Sądzę, że statystyka Morana I mogła zostać obliczona dla reszt obliczenia GWR. (Resztki to różnice między wartościami rzeczywistymi a dopasowanymi). Moran I jest globalną miarą korelacji przestrzennej. Jeśli jest mały, sugeruje, że różnice między wartościami y i GWR pasującymi do wartości x mają niewielką lub żadną korelację przestrzenną. Kiedy GWR jest „dostrojony” do danych (wymaga to podjęcia decyzji, co tak naprawdę jest „sąsiadem” dowolnego punktu), należy oczekiwać niskiej korelacji przestrzennej reszt, ponieważ GWR (domyślnie) wykorzystuje dowolną korelację przestrzenną między xiy wartości w swoim algorytmie.
Rsquared nie powinien być używany do porównywania modeli. Użyj dzienników lub wartości AIC.
Jeśli twoje resztki w GWR są losowe lub, jak sądzę, wydają się losowe (nie statystycznie istotne), możesz mieć określony model. To przynajmniej sugeruje, że nie masz skorelowanych reszt i powinno sugerować, że nie masz żadnych pominiętych zmiennych.
źródło