Czy uważasz, że geokodowanie online stanowi naruszenie prywatności?

21

Załóżmy, że mam wiele adresów osób biorących udział w niektórych badaniach (najprawdopodobniej związanych ze zdrowiem, gdzie prywatność i względy etyczne są zawsze ważnymi kwestiami).

Obecnie dostawcy tacy jak Google czy Yahoo oferują przyzwoite wyniki pod względem dokładności pozycjonowania.

Północnoamerykańskie Stowarzyszenie Centralnych Rejestrów Nowotworów ( NAACCR ) wymienia takie opcje w swoich „ Najlepszych praktykach geokodowania: Przegląd ośmiu powszechnie stosowanych systemów geokodowania ” i „ Przewodniku po najlepszych praktykach geokodowania ”.

Na przykład Cinnamon i Schuurman (2010) wykorzystali usługę BatchGeocode jako część swojego narzędzia do badania obrażeń przy niskim poziomie zasobów.

Czy uważasz, że geokodowanie takich adresów przy użyciu usług online, takich jak Mapy Google lub OpenStreetMap, stanowi naruszenie prywatności?

Być może związane z PS1 pytanie .

Niedawny artykuł PS2 w Epidemiologii (jeden z wiodących czasopism naukowych) opublikował krótką komunikację zawierającą szczegółowe instrukcje dotyczące geokodowania za pomocą interfejsów API Map Google i miejsc. Co ciekawe, nie wspomniano ani słowa o bezpieczeństwie / prywatności ...

geocoding security radka
źródło

Pytanie o zakres wiki społeczności?

grafika 21

11

Z pewnością ma to wpływ na prywatność - szczególnie jeśli pracujesz z małymi partiami danych. Każdy, kto próbuje wydobywać strumień danych, będzie mógł założyć, że wszystkie żądania w tej samej partii mają coś wspólnego - nawet jeśli stan zdrowia lub dane osobowe nie zostaną ujawnione za pośrednictwem drutu.

Lepszą techniką jest grupowanie wielu niepowiązanych danych / pacjentów w celu geokodowania zbiorczego.

Na przykład - połącz swoje dane wymagające geokodowania z innymi badaczami - im więcej niezwiązanych ze sobą problemów, tym lepiej. Losuj kolejność żądań. I raz dziennie proces wsadowy przez tę kolejkę, wszystkie na raz.

Teraz znacznie trudniej jest wydobywać dane, nawet jeśli osoba atakująca jest w stanie podsłuchać żądania geokodowania.

radven
źródło

Ciekawy! Jakieś narzędzie / platforma, które mogą ułatwić ten proces?

Nicolas Raoul

8

Lokalne geokodowanie zaszyfrowanych plików na bezpiecznym serwerze byłoby zdecydowanie złotym standardem prywatności. Użycie Tora byłoby kolejną najlepszą rzeczą, jeśli potrzebne jest geokodowanie przy użyciu zdalnego interfejsu API.

Tor chroni cię, odbijając komunikację wokół rozproszonej sieci przekaźników obsługiwanych przez wolontariuszy na całym świecie: uniemożliwia ... odwiedzanym stronom poznanie twojej fizycznej lokalizacji.

Wraz z wprowadzaniem losowych adresów (jak inni tutaj zalecają) i używaniem ssl (https) do szyfrowania komunikacji do ich punktów końcowych (upewnij się, że to robisz), nie mogę wymyślić bardziej bezpiecznego sposobu na geokodowanie zdalnie niż za pośrednictwem Projekt Tor . Jakakolwiek usługa geokodowania, której używasz, nigdy nie będzie w stanie określić, skąd ostatecznie pochodzą żądania, a dzięki https nikt inny też tego nie zrobi. Uwaga: nie korzystaj z usługi geokodowania, która wymaga do tego klucza API, w przeciwnym razie nie będziesz już anonimowy. (Google nie wymaga już klucza API).

Więcej szczegółów na temat używania Tora znajduje się w mojej odpowiedzi na powiązane pytanie tutaj.

Victor Van Hee
źródło

Dzięki, nie myślałem o Tor, ale wydaje się, że to dobry pomysł.

radek

Nawet jeśli używasz Tora, serwer geokodujący nadal otrzymuje twoje informacje, co stanowi fundamentalne naruszenie prywatności. Nie możesz ufać serwerowi do geokodowania.

Nicolas Raoul

8

To doskonałe pytanie, które zadawano mi ostatnio kilka razy, odkąd pracuję dla firmy weryfikującej adresy o nazwie SmartyStreets.

Po pierwsze, adres pocztowy reprezentuje pojedynczy punkt lokalizowalny na mapie. Sam adres jest z natury łagodny, ponieważ nie zawiera żadnych dodatkowych informacji. Rysowanie punktu na mapie nic nie robi. Dopiero gdy zaczniesz przypisywać KONTEKST do tego punktu (adresu), zaczyna on coś znaczyć.

Mając to na uwadze, adres pocztowy może reprezentować osobę, organizację, budynek, samochód, cokolwiek innego. Po rozpoczęciu gromadzenia wielu adresów pocztowych zwiększasz kontekst, który można wyprowadzić z tej grupy. Podobieństwa można ustalić, aby zobaczyć, co mają wspólnego adresy. Jednak tylko grupowanie adresów w podobnym obszarze nie oznacza dużego kontekstu. Mogę spojrzeć na mapę Google i zobaczyć wszystkie domy w określonym obszarze. Nie stanowi to naruszenia prywatności, chyba że mam nieautoryzowany dostęp do uprzywilejowanych informacji.

Inne punkty kontekstu muszą być łączone, aby faktycznie ujawniać jakiekolwiek dane prywatne. Na przykład grupa adresów pocztowych przesłanych do usługi online w celu weryfikacji adresu i / lub geokodowania nie podaje informacji, chyba że wiesz, kto przesłał listę do przetworzenia. Po poznaniu właściciela listy można wyciągnąć pewne wnioski na temat zamierzonego wykorzystania listy. Znajomość tego dodatkowego kontekstu, takiego jak właściciel listy i zamierzone użycie, z pewnością kwalifikuje się jako informacja uprzywilejowana i może stanowić źródło naruszenia prywatności.

Opcjonalnym rozwiązaniem jest udostępnienie przetwarzania „we własnym zakresie”, tak aby nie była zaangażowana żadna zewnętrzna usługa danych. Z pewnością wyklucza to wszelkiego rodzaju nieautoryzowany dostęp do informacji uprzywilejowanych. Weryfikacja adresu i geokodowanie nie są zadaniami niewtajemniczonych i z pewnością wymagają zaawansowanych umiejętności (co oznacza doświadczenie zdobyte z czasem) w celu przetwarzania bardzo dużych list bez zużywania nadmiernej ilości czasu i zasobów. Więc wprowadzenie go do domu jest z pewnością opcją, ale czy każda firma, która ma poufne informacje o adresie, ma zasoby do własnego własnego „bezpiecznego” przetwarzania adresu (w tym geokodowania) we własnym zakresie? Nie. (Chociaż z pewnością oznaczałoby to bezpieczeństwo pracy dla czytelników tej witryny).

Istnieją sposoby na zachowanie wymaganej prywatności i korzystanie z usług online. Jedną z metod byłoby założenie konta, przetestowanie wszystkiego i ustalenie, a następnie, korzystając z tymczasowego adresu e-mail, założyć nowe konto z niepowiązanym adresem rozliczeniowym powiązanym z kartą kredytową, którego nie można zidentyfikować. Przetwarzanie adresów na tym koncie teoretycznie nie ujawniłoby żadnego cennego kontekstu, a tym samym zachowałoby prywatność osób na liście. (To zaczyna brzmieć jak film Enemy Of The State .

Jeśli brzmi to skomplikowanie i jest zbędne, zgadzam się. Prostszą metodą byłoby skorzystanie z interfejsu API korzystającego z HTTPS i POST, który nie przechowuje ani nie rejestruje żadnych przetwarzanych danych. Zastosowanie HTTPS oznacza, że jedynym rekordem byłby znacznik czasu i adres IP, z którego dzwonisz. Podstawowy adres URL nie byłby znany. Oczywiście konto, którego używasz, prowadzi do ciebie, ALE, to nie jest problem, ponieważ użycie żądania POST pozwala na dołączenie ładunku (w tym przypadku partii adresów), a zawartość ładunku nie jest rejestrowana. Dlatego przesłane adresy nie znajdują się w żadnym dzienniku serwera. A fakt, że pamięć jest czyszczona między poszczególnymi procesami, oznacza, że adresy te nigdy nie są przechowywane ani rejestrowane, a ich przesyłanie z powrotem do Ciebie odbywa się za pośrednictwem bezpiecznego połączenia.

13Mar2012 06:31 (-6) IP: 12.134.223.12 UserID: 875564 - POST QTY: 3439942 - [przetworzony]

Każdy, kto spojrzy na dzienniki, zobaczy tylko, że przetworzyłeś niektóre adresy i nie miałby pojęcia, jakie adresy zostały przetworzone. Spełnia to nawet najostrzejsze wymagania polityki prywatności. Nie miałbym sensu zaznaczać, że ten rodzaj usługi jest dostępny (i bardzo szybki ), nie wspominając, gdzie go znaleźć. Jest już wbudowany w usługę API LiveAddress od SmartyStreets. Inne usługi, takie jak Cdyne, QAS i ServiceObjects, mogą również oferować podobne usługi, ale jeszcze o nich nie słyszałem.

Jeffrey
źródło

Dziękuję za szczegółowe informacje. HTTPS zdecydowanie brzmi jak rozsądny pomysł. Zakładam, że SmartyStreets jest ograniczony do USA?

radek

Tak, weryfikacja adresu i geokodowanie SmartyStreets jest ograniczone do adresów US Postal Service.

Jeffrey

5

Być może możesz utworzyć identyfikator, podzielić swój stół. Usuwanie danych osobowych. a następnie wróć do tabeli po geokodowaniu.

W duchu (federacji PCness) przypuszczam, że mógłbyś udowodnić, że kiedy uruchomisz gdzieś dane na serwerze, nie utrzymasz łańcucha dostaw.

Znalazłem sporo pisania na ten temat, jeśli chcesz śledzić ...

Posiadanie i kontrola w chmurze

Posiadanie i kontrola wieku elektronicznego

Książka Google

Implikacje prawne przetwarzania w chmurze

Jeśli egzekwowanie przepisów zostanie przeprowadzone zgodnie z literą prawa, przetwarzanie w chmurze może zostać całkowicie wyłączone z usług rządowych.

Brad Nesom
źródło

5

Nie, możesz geokodować offline. Jeśli korzystasz z geokoderów wsadowych online, w jaki sposób konwersja adresów na współrzędne geograficzne staje się problemem prywatności? Byłoby większym problemem, gdyby imię i nazwisko każdego zostało podane i opublikowane. Jak Brad wspomina o oddzielnym adresie z identyfikatorem i przeszukuje go, gdy adresy zostaną geokodowane. Standardowa praktyka.

Mapperz
źródło

5

Zgadzam się, że możesz geokodować offline i nie musisz ujawniać żadnych danych osobowych. Ale nie zgadzam się z twoją sugestią, która uwzględnia jedynie nazwisko i identyfikator jako informacje, które powinny być poufne. Jeśli ujawniasz adres domowy osoby, nawet bez jej imienia i nazwiska, w zasadzie ją zidentyfikowałeś. Zastanów się nad opublikowaniem mapy z punktami na domach osób z wysoce zakłopotaną chorobą zakaźną.

DavidF

2

Jak powiedział Mapperz, o ile wysyłane informacje są ograniczone do adresu, nie powinno być problemu. Nie dołączaj „HECD” ani żadnych innych poufnych informacji do wysyłanych informacji.

jvangeld,

1

@DavidF każdy adres ma współrzędne geograficzne - geokodowanie jest w 99,9% zautomatyzowane [obliczenia] nie ma utraty prywatności. Jeśli nie podoba ci się to w Internecie, nie umieszczaj go tam, użyj wersji offline.

Mapperz

2

@jvangeld Nadal uważam, że prywatność może zostać naruszona w sytuacji online, gdy strona trzecia może połączyć tożsamość organizacji przesyłającej żądanie geokodu i adresy. Jeśli Front Ludowy na rzecz Leczenia Wampiryzmu przedstawi geokod wsadowy zawierający 100 adresów, czy nie sądzisz, że strona trzecia mogłaby rozsądnie założyć, że w 100 domach znajdowali się ludzie, którzy próbowali wyleczyć się z „alternatywnego stylu życia”? Oczywiście jest to dość akademicki argument, ale jeśli naprawdę chcesz chronić prywatność i anonimowość, myślę, że jest to istotne.

DavidF,

1

Opinia @DavidF jest bardzo istotna: adres zamieszkania jest uważany za bardzo wrażliwy i może potencjalnie prowadzić do ujawnienia uczestników badania. Jeśli jest 1000 wniosków z adresu IP instytucji zajmującej się wampiryzmem, można po prostu założyć, że mają adresy potencjalnych 1000 wampirów. Chodzi mi o to, czy w takich warunkach można uznać usługę geokodowania online za „bezpieczną stronę”? Czy możesz zostać oskarżony o udostępnienie danych osobom nieupoważnionym, które nie są częścią badania? Czy strona, która dzięki procesowi geokodowania ma dostęp do danych?

radek

4

Geokodowanie ma niskie ryzyko Na początku tego roku pracowaliśmy z niektórymi szpitalami i pojawiło się to pytanie. Sama usługa geokodowania nie była wielkim problemem, ponieważ usunęliśmy wszystkie dane oprócz identyfikatora i adresu z danych, użyliśmy bezpiecznego transferu (https) i TOS, który nasz wewnętrzny geokoder określił zabezpieczenia prywatności, które wystarczyły, aby spełnić ich kryteria.

Anonimowe wyświetlanie lokalizacji jest trudniejsze Najtrudniejszym zadaniem było wyświetlanie map rzadkich danych przy zachowaniu anonimowości. Pierwszą opcją, o którą poprosił klient, było dodanie losowej „krówki” do każdego punktu, aby rzeczywista lokalizacja domu była zaciemniona. Problem z tym podejściem polega na tym, że wymagany rozmiar krówki jest dość duży (1/2 mili lub więcej) (co jeśli ktoś mieszka na farmie) i skłonność użytkowników mapy do przyjmowania dokładnych lokalizacji punktów. Zdecydowaliśmy się na zebranie punktów wyświetlających się na tyle, aby być anonimowymi, a jednocześnie mieć przydatną mapę. Wydaje się, że normą z innych branż, w których pracowaliśmy, jednostka agregująca musi mieć co najmniej 7 do 10 rekordów.

Glenn
źródło

2

Zakładam, że geokodujesz go, a nie podajesz wyników do publicznej wiadomości? Jeśli tak, to w jaki sposób chmura mogłaby być świadoma tego, co reprezentują te dane?

Prawdopodobnie możesz również zaciemnić dowolne dane, które geokodujesz, danymi losowymi ukrywającymi wszelkie istniejące wzorce, które mogą istnieć.

djq
źródło

poprawne, chodzi o uzyskanie zestawu współrzędnych geograficznych dla danego zestawu danych. cała reszta analiz będzie offline, a wszelkie publikowane dalej nigdy nie będą wykorzystywać informacji na poziomie indywidualnym. podoba mi się pomysł zaciemnienia zestawu danych!

radek

2

Nie wiem, czy to nowe, odkąd zostało zadane pytanie, ale jeśli ktoś zastanawia się w Google Maps API v3, możesz użyć SSL (https). Również sekcja dotycząca prywatności Przewodnika najlepszych praktyk NAACCR omawia te kwestie.

Scott
źródło

2

W Austrii byłby to z pewnością problem prywatności.

Przede wszystkim: dane zdrowotne są klasyfikowane jako wrażliwe i nie ma wątpliwości, że nie wolno przekazywać ich osobom trzecim bez wyraźnej zgody osoby związanej z tym zbiorem danych.

Nawet jeśli jest anonimowy: możliwe jest geokodowanie tych danych zdrowotnych, ale możliwe jest także geokodowanie publicznie dostępnych rejestrów nazwisk-adresów (książka telefoniczna) i łączenie danych zdrowotnych z osobami tam mieszkającymi, więc adresy są również klasyfikowane jako osobiste dane.

Prowadzi to do tego, że nie można geokodować tego zestawu danych, wysyłając go do strony trzeciej bez wyraźnego pytania uczestników.

Jürgen Zornig
źródło

1

Potrzebujesz dokładnego geokodu lub ogólnego obszaru? Możesz być w stanie użyć tylko kodu pocztowego lub częściowego kodu pocztowego f

użytkownik1466
źródło

@ user1466: dokładny geokod byłby tutaj zdecydowanie preferowany.

radek

1

Pracuję dla firmy zajmującej się geokodowaniem ( YAddress.net ) i mamy dużą liczbę klientów o rygorystycznych wymogach dotyczących prywatności - branża finansowa, opieka zdrowotna, prawo itp.

Ich problemy dotyczące prywatności rozwiązujemy na dwa sposoby:

Przetwarzanie danych online za pośrednictwem połączeń szyfrowanych za pomocą protokołu SSL (zapobiega szpiegowaniu danych w tranzycie) oraz umowy dotyczące prywatności po naszej stronie. Jest to wystarczające dla niektórych klientów, ale nie dla wszystkich.
Aby zapewnić najwyższą prywatność, opcja wdrażania oprogramowania na miejscu, w której geokodowanie odbywa się całkowicie w siedzibie klienta i żadne dane nigdy nie są przesyłane przez Internet.

Jak słusznie zauważyli inni komentujący, adres pocztowy sam w sobie jest informacją publiczną i bez żadnych danych kontekstowych (takich jak nazwiska klientów, numery itp.) Nie oznacza to żadnego ujawnienia. Jednak rzeczywiste firmy działają w realnych środowiskach prawnych, w których ta linia rozumowania może występować przed sądem. Jeśli prywatność stanowi poważny problem, dodatkowy koszt rozwiązania na miejscu może być tego wart, aby uniknąć ryzyka potencjalnych komplikacji prawnych w przyszłości.

Michael Diomin
źródło

Czy uważasz, że geokodowanie online stanowi naruszenie prywatności?

Odpowiedzi: