Mam zestawy danych, które zawierają, wśród wielu funkcji, współrzędne GPS (szerokość i długość geograficzna). Chciałbym użyć tych zestawów danych do zbadania problemów, takich jak: (1) obliczanie ETA w celu przejazdu między punktami początkowymi i końcowymi; oraz (2) oszacowanie liczby przestępstw dla określonego punktu.
Chciałbym użyć modelu regresji liniowej. Czy mogę jednak użyć tych współrzędnych GPS bezpośrednio w modelu liniowym?
Szerokość i długość geograficzna nie mają porządkowej własności , takiej jak wiek osoby. Na przykład dwa punkty (40.805996, -96.681473) i (41.226682, -95.986587) nie wydają się mieć żadnego znaczącego uporządkowania. Są tylko punktami w kosmosie. Zastanawiałem się nad zastąpieniem ich kategorycznymi kodami pocztowymi w USA, a następnie kodowaniem „na gorąco” , ale spowodowałoby to wiele zmiennych.
źródło
Odpowiedzi:
Nie możesz ich użyć bezpośrednio, ponieważ jest mało prawdopodobne, aby istniała prawdziwa relacja liniowa, chyba że chcesz przewidzieć „jak daleko na wschód lub północ” jest ktoś. Jak wspomniano w komentarzach, musisz je przekształcić w strefy. Jeśli chcesz, aby było to naprawdę proste, możesz użyć algorytmu klastrowania kNN z małą liczbą potencjalnych klastrów, a następnie przypisać każdej instancji nową funkcję z identyfikatorem klastra, a następnie zakodować go jednym kodem.
Możesz także przeczytać o tym, jak ludzie interpolują współrzędne, aby przewidywać wartości na całej mapie. Pierwszy przykład dotyczy stacji temperatury, ale można również wyobrazić sobie, że są to „gorące strefy” przestępczości.
( DOCS )
źródło
Możesz zrobić wszystko, czego zapragnie twoje serce, ale jeśli twój model nie przewiduje różnicy temperatur lub czasu, nie mogę wymyślić żadnej innej zmiennej docelowej, która zależy wyłącznie od współrzędnych.
To, co prawdopodobnie chcesz zrobić, to użyć zewnętrznego źródła danych i wzbogacić swoje dane o kraj / kod pocztowy / klimat / inne funkcje geograficzne, które pomogą w działaniu twojego modelu.
źródło
Współrzędne GPS można bezpośrednio przekonwertować na geohash . Geohash dzieli Ziemię na „wiadra” o różnej wielkości w zależności od liczby cyfr (krótkie kody Geohash tworzą duże obszary, a dłuższe kody dla mniejszych obszarów).
Geohash jest pojedynczą liczbą, która może być używana jako funkcja w modelu.
Geohash dotyczy tylko całego świata, a kody pocztowe nie.
źródło