Dobre zasoby na temat algorytmów geokodowania

19

Czy znasz jakieś dobre zasoby dotyczące algorytmów geokodowania?

Szczególnie interesuje mnie parsowanie adresów, w tym dopasowanie i ważenie części zapytania, radzenie sobie z błędami i odmianami, a także szczegółowe informacje na temat fizycznego przechowywania danych (np. Schematy bezpośrednich zapytań relacyjnych baz danych, podejścia do indeksowania danych itp.) .

Przestudiowałem niektóre dokumenty na temat geokodowania ArcGIS 10, ale nieco dotykają faktycznych szczegółów implementacji. Pomocna może być również szczegółowa dokumentacja innych wysokiej jakości wdrożeń produkcyjnych. Im bardziej techniczny, tym lepiej. Dokumenty z algorytmów teoretycznych są również świetne.

Dzięki.

Petr Krebs
źródło

Odpowiedzi:

14

Od tekstu do współrzędnych geograficznych: aktualny stan geokodowania

Daniel W. Goldberg, John P. Wilson i Craig A. Knoblock Streszczenie: W tym artykule przedstawiono przegląd stanu techniki w geokodowaniu poprzez interdyscyplinarny przegląd historyczny istniejącej literatury. Badamy rozwijającą się koncepcję geokodowania i podstawowe elementy tego procesu. Omawiane są często spotykane źródła błędów i niepewności, a także istniejące miary stosowane do ich kwantyfikacji. Przedstawiono badanie typowych pułapek i utrzymujących się wyzwań w procesie geokodowania oraz opisano tradycyjne metody ich pokonywania.

10.1.1.119.714.pdf

PDF (strona 34 i nowsze) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.714&rep=rep1&type=pdf

Mapperz
źródło
Wierzę, że masz zły link, citeseerx.ist.psu.edu/viewdoc/…
Andy W
@ dzięki 10.1.1.119.714.pdf jest poprawny, zaktualizowany post - inna konwencja nazewnictwa byłaby lepsza.
Mapperz
6

Artykuł, do którego prowadzi Mapperz, jest bardzo dobry i zawiera wiele cytatów, które prawdopodobnie będą interesujące, ale nie sądzę, że dobrze sobie radzą z opisywaniem dopasowywania ciągów i jego znaczenia dla procesu geokodowania. Krótko wspomnieli o Soundex , ale Soundex nie jest jedyną opcją, a nawet najlepszą opcją dla adresów IMO. Wymienili całkiem sporo cytatów związanych z tematem, więc te artykuły będą dla ciebie interesujące.

Ten wątek na statystyki witryny wymiana rozmów o rozmytych dopasowywania dwa komplety strun, a wszystko z tych samych technik zastosowania podczas dopasowywania adresów. Szczególnie uważam, że używanie odległości edycji ma większy sens niż Soundex, zwłaszcza w przypadku szczegółów adresu, które nie mają analogu Soundex. Obliczanie odległości Levenshteina między dwoma łańcuchami nie jest wcale takie skomplikowane, a jest ich mnóstwo przykładów unoszących się w Internecie ( tutaj jest jeden w Pythonie).

Właśnie spędziłem ostatnią godzinę, próbując znaleźć sposób, w jaki ESRI wdraża swoją wrażliwość na pisownię oraz różne wyniki kandydatów i meczów. Nie znalazłem nic poza prostymi opisami (najlepsze z tych, które znalazłem w tym pliku PDF i sekcji pomocy online 9.3 ). Jeśli ktoś mógłby wskazać mi bardziej szczegółową dokumentację, byłbym wdzięczny, podobnie jak PO.

Andy W.
źródło