Jaki model statystyczny lub algorytm można zastosować do rozwiązania problemu John Snow Cholera?

23

Chciałbym dowiedzieć się, jak opracować przybliżenie geograficzne pewnego rodzaju epicentrum na podstawie danych z epidemii choroby John Snow Cholera. Jakie modelowanie statystyczne można zastosować do rozwiązania takiego problemu bez uprzedniej wiedzy o tym, gdzie znajdują się studnie.

Jako ogólny problem miałbyś do dyspozycji czas, lokalizację znanych punktów i ścieżkę spacerową obserwatora. Metoda, której szukam, wykorzystałaby te trzy rzeczy do oszacowania epicentrum „wybuchu”.

cylondude
źródło
2
Modele Kriginga służą do prognozowania geograficznego. To może być miejsce na początek. Aby uwzględnić informacje o czasie, musisz pójść o krok dalej i użyć modelu czasoprzestrzennego (nie korzystałem z nich jednak).
Great38,
4
@Great Kriging byłby trudny do zastosowania tutaj: nie jest przeznaczony do oszacowania ekstremów, ani nie jest dobrze dostosowany do geometrii czasu marszu po drogach, który jest istotny, ani nie jest dobrze przystosowany do kontrolowania ważnych zmiennych towarzyszących, takich jak gęstość zaludnienia lub liczba pracowników w budynkach.
whuber
Ten pakiet R może być przedmiotem zainteresowania github.com/lindbrook/cholera .
David C. Norris,

Odpowiedzi:

25

Nie po to, aby udzielić pełnej lub wiarygodnej odpowiedzi, ale tylko w celu pobudzenia pomysłów, przedstawię szybką analizę, którą przeprowadziłem dla ćwiczenia laboratoryjnego na kursie statystyki przestrzennej, którego uczyłem dziesięć lat temu. Celem było sprawdzenie, jaki wpływ miałaby dokładna ewidencja prawdopodobnych ścieżek podróży (pieszo) w porównaniu z wykorzystaniem odległości euklidesowych na stosunkowo prostej metodzie badawczej: oszacowaniu gęstości jądra. Gdzie byłby szczyt (lub szczyty) gęstości w stosunku do pompy, której uchwyt usunął śnieg?

Używając dość wysokiej rozdzielczości reprezentacji rastrowej (2946 wierszy na 3160 kolumn) mapy Snow'a (odpowiednio georeferencyjnie), digitalizowałem każdą z setek małych czarnych trumien pokazanych na mapie (znajdując 558 z nich pod 309 adresami), przypisując każdą do krawędź ulicy odpowiadająca jej adresowi i podsumowująca według adresu w liczbie w każdej lokalizacji.

Mapa punktowa danych wejściowych

Po pewnym przetworzeniu obrazu w celu zidentyfikowania ulic i ulic, przeprowadziłem prostą dyfuzję Gaussa ograniczoną do tych obszarów (używając powtarzalnych środków ogniskowych w GIS). To jest KDE.

Wynik mówi sam za siebie - prawie wcale nie potrzebuje legendy, żeby to wyjaśnić. (Mapa pokazuje wiele innych pomp, ale wszystkie leżą poza tym widokiem, który koncentruje się na obszarach o największej gęstości).

Mapa śniegu pokazująca gęstość z kolorem.

Whuber
źródło
ŁAŁ. Podsumowując; 1. zlinearyzuj ścieżkę przesuwu, 2. wykonaj wygładzanie w jednym wymiarze, 3. rozciągnij wygładzanie w dwóch wymiarach, 4. uśrednij KDE na ścieżkach?
cylondude
1
Wygładzanie przeprowadzono w 2D, ale ograniczono do regionu pokazanego w kolorze. Są też inne sposoby na zrobienie tego, podobne do twojego opisu. Nie ma jednak potrzeby dokonywania średniej dla „podróży ścieżkami” (cokolwiek by to nie było). Ta mapa jest częściowo interesująca, ponieważ ma właściwości zarówno jedno-, jak i dwuwymiarowych geometrii.
whuber
Dla każdego punktu A na ulicach policz liczbę kroków do drugiego punktu B wśród lokalizacji adresowych. Podłącz tę liczbę kroków do gęstości Gaussa i pomnóż tę wartość przez liczbę zgonów w B. Zsumuj wszystkie te produkty (tj. We wszystkich punktach adresu B), aby uzyskać gęstość jądra w punkcie A. Zrób to dla wszystkich punktów A na ulicach. Taką gęstość widzimy w każdym punkcie mapy. Tak?
Hatszepsut
2
b
2
@ Hat Nie jest tak, że Gaussian ma całkę jednostkową, gdy jest ograniczona do dróg i chodników! W ten sposób jest obcinany i musi zostać ponownie znormalizowany.
whuber
19

W [1, §3.2] David Freedman sugeruje zasadniczo negatywną odpowiedź na twoje pytanie. Oznacza to, że żaden (zwykły) model statystyczny lub algorytm nie mógłby rozwiązać problemu Johna Snowa. Problemem Snowa było wypracowanie krytycznego argumentu na poparcie jego teorii, że cholera jest chorobą zakaźną przenoszoną przez wodę, w przeciwieństwie do panującej obecnie teorii miazmy . (Rozdział 3 w [1], zatytułowany „Modele statystyczne i skóra obuwnicza”, jest również dostępny w uprzednio opublikowanej formie [2] tutaj .)

Na tych kilku krótkich stronach [1, s. 47–53], z których większość jest rozszerzonym cytatem samego Johna Snowa, Freedman twierdzi, że „to, co Snow rzeczywiście zrobił w latach 1853–54, jest nawet bardziej interesujące niż bajka [Broad Street Pump]. ” Jeśli chodzi o zestawienie dowodów statystycznych (oprócz innych omówień, takich jak identyfikacja przypadków indeksowych itp.), Snow wykorzystał naturalną zmienność, aby uzyskać naprawdę niezwykły quasi-eksperyment.

Okazuje się, że wcześniej istniała silna konkurencja między firmami wodociągowymi w Londynie, co spowodowało przestrzenne mieszanie wody, która była (słowami Snow) „najbardziej intymna”.

Rury każdej Kompanii idą wszystkimi ulicami, na prawie wszystkie sądy i zaułki. Kilka domów jest dostarczanych przez jedną Spółkę, a kilka przez drugą, zgodnie z decyzją właściciela lub najemcy w tym czasie, gdy Kompanie Wodne brały aktywny udział.

...

Ponieważ nie ma różnicy w domach lub ludziach otrzymujących zapasy dwóch Kompanii Wodnych, ani w żadnych fizycznych warunkach, w których są otoczeni, oczywiste jest, że nie można było opracować żadnego eksperymentu, który bardziej dokładnie przetestowałby wpływ zaopatrzenia w wodę na postęp cholery niż ten, co okoliczności stawiają gotowe przygotowane przed obserwatorem.

—John Snow

Kolejną niezwykle ważną częścią „naturalnej zmienności”, którą John Snow wykorzystał w tym quasi-eksperymencie, było to, że jedno przedsiębiorstwo wodne miało pobór wody na Tamizie poniżej zrzutów ścieków , podczas gdy drugie kilka lat wcześniej przeniosło swoje ujęcie w górę rzeki . Pozwól, że zgadniesz, która była tabela danych Johna Snowa!

                     | Liczba | Cholera | Zgony na
Firma | domy | zgony | 10 000 domów
-------------------------------------------------- --------
Southwark i Vauxhall | 40,046 | 1263 | 315
Lambeth | 26,107 | 98 | 37
Reszta Londynu | 256,423 | 1422 | 59

Jak Freedman zauważa miażdżąco:

Jako element technologii statystycznej [powyższa tabela] nie jest niczym niezwykłym. Ale historia, którą opowiada, jest bardzo przekonująca. Siła tego argumentu wynika z jasności wcześniejszego rozumowania, połączenia wielu różnych dowodów i ilości skóry obuwia, którą Snow był gotów wykorzystać, aby uzyskać dane. [1, s. 51]

Kolejny punkt naturalnej zmienności eksploatowanej przez Snow wystąpił w wymiarze czasowym : wspomniana relokacja ujęcia wody wystąpiła między dwiema epidemiami, umożliwiając Snowowi porównanie wody tej samej firmy z dodatkowymi ściekami i bez nich. (Podziękowania dla Philipa B. Starka, jednego z autorów [1], za te informacje za pośrednictwem Twittera . Zobacz jego wykład online ).


Ta kwestia stanowi także pouczające studium w przeciwieństwie do deduktywizmu i induktywizmu , jak omówiono w tej odpowiedzi .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. Modele statystyczne i wnioskowanie przyczynowe: dialog z naukami społecznymi. Cambridge; Nowy Jork: Cambridge University Press; 2010 r.

  2. Freedman DA. Modele statystyczne i skóra obuwnicza. Metodologia socjologiczna . 1991; 21: 291-313. doi: 10.2307 / 270939. Pełny tekst

David C. Norris
źródło
1
+1 za wskazanie, że samo zidentyfikowanie epicentrum byłoby niewystarczające do rozwiązania „problemu Johna Snowa”, jak stwierdzono. Teoria Miazmy była jedną z takich dominujących teorii w tamtym czasie, jak zauważa David. Aby sfalsyfikować teorię plazmy, należałoby wykazać, że wskaźniki geograficzne nie rosną wraz z bliskością rzeki. Nowoczesne podejście do tego problemu mogło polegać na krigingu.
AdamO,
Dzięki, @AdamO; ale zastanawiam się, w jaki sposób Kriging przyjąłby „intymne” mieszanie przestrzenne w tym przypadku, co prawie wydaje się obrazą ciągłości niezbędnej do zastosowania techniki interpolacji (takiej, jaką rozumiem jako Kriginga).
David C. Norris,
Być może źle zrozumiałem słowa Snowa: moje domniemanie było takie, że „dokładne wymieszanie [źródeł zasilania pomp wodnych]” odnosiło się do prawie idealnego projektu bloku, w którym każda warstwa koncentryczna bloków miejskich, rozwarstwiona na odległość od rzeki, zawierała pompy dostawców A, B, C ... ma to związek z poparciem teorii, że zanieczyszczona woda powoduje cholerę. Kriging odrzuciłby hipotezę miazmatyczną, pokazując, że bliskość rzeki nie jest związana ze zwiększoną zapadalnością na cholerę. Wspierają to ludzie podlewający pompy: miazmat nie przemieszcza się rurą.
AdamO,
2
@AdamO W rzeczywistości William Farr badał wskaźniki śmiertelności z powodu cholery (od 1849 r.) I porównywał je z wysokością nad Tamizą. Zgodność między tymi zmiennymi jest uderzająca i prawie idealnie zgodna z przewidywaniami z teorii miazmy. Zobacz Langmuir AD. Bacteriological Review 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). W tym artykule zauważono, że nawet przed śmiercią dr Snowa w 1858 r. Jego teoria „nie została zaakceptowana w oficjalnych kręgach”.
whuber
1
Wielkie dzięki za te referencje, @whuber. W ramach kuracji zauważam, że artykuł Langmuira jest otwarty .
David C. Norris,