Chciałbym przeprowadzić analizę wielowymiarową na poziomie indywidualnym na małych poziomach agregacji geograficznej (dystrykty gromadzenia australijskiego spisu powszechnego). Oczywiście spis ludności nie jest dostępny na tych małych poziomach agregacji ze względu na prywatność, więc badam inne alternatywy. Prawie wszystkie zmienne będące przedmiotem zainteresowania są kategoryczne. Mam do dyspozycji dwa zestawy danych:
Próbka spisu powszechnego o wartości 1% jest dostępna na znacznie wyższym poziomie agregacji przestrzennej (obszar o populacji około 190 000 i znacznej przestrzennej segregacji danych demograficznych).
Tabele częstotliwości dla zmiennych, którymi jestem zainteresowany na poziomie małych obszarów (500 małych obszarów, średni pop = 385, sd = 319, mediana = 355).
Jak mogę wykorzystać te dwa zestawy danych do symulacji rozkładu populacji na poziomie małego obszaru, który jest jak najbardziej zbliżony do faktycznej populacji małego obszaru?
Rozumiem, że mogą istnieć rutynowe metody wykonania tego; jeśli tak, bardzo doceniony zostanie wskaźnik do podręcznika lub odpowiednich artykułów w czasopiśmie.
Odpowiedzi:
Mapowanie dasymetryczne koncentruje się głównie na interpolacji szacunków populacji na mniejsze obszary niż dostępne w obecnie rozpowszechnianych danych (zobacz to pytanie, aby znaleźć wiele przydatnych odniesień na ten temat). Często dokonywano tego po prostu poprzez identyfikację obszarów (w oparciu o cechy terenu), na których oczywiście nie ma populacji, a następnie ponowne oszacowanie gęstości zaludnienia (z pominięciem tych obszarów). Przykładem może być zbiornik wodny w mieście, innym może być identyfikacja działek przemysłowych, na których nie ma populacji zamieszkałej przez mieszkańców. Nowsze podejścia do mapowania dasymetrycznego uwzględniają inne dane pomocnicze w ramach probabilistycznych w celu alokacji szacunków populacji (Kyriakidis, 2004; Liu i in., 2008; Lin i in., 2011; Zhang i Qiu, 2011).
Teraz łatwo jest zobaczyć związek z twoim pytaniem. Chcesz oszacowania populacji małych obszarów. Ale powinno być również jasne, w jaki sposób może nie spełniać twoich celów. Chcesz nie tylko danych o populacji, ale także cech tych populacji. Jednym z terminów używanych do opisania tej sytuacji jest zmiana problemu wsparcia (Cressie, 1996; Gotway & Young, 2002). Pożyczając z literatury geostatystycznej, w której próbuje się przewidzieć pewną cechę na dużym obszarze z próbek punktowych, ostatnie prace próbowały interpolować dane powierzchniowe do różnych stref docelowych. Wiele prac Pierre'a Goovaertsa koncentruje się na takich metodach krigingu obszarowego, najnowszy artykuł w czasopiśmie Geographic Analysis ma kilka przykładów metody stosowanej w różnych materiałach przedmiotowych (Haining i in., 2010), a jednym z moich ulubionych zastosowań jest ten artykuł (Young i in., 2009).
To, co cytuję, nie powinno być jednak postrzegane jako panaceum na problem. Ostatecznie wiele takich samych problemów z wnioskami ekologicznymi i tendencyjnością agregacji dotyczy również celów interpolacji powierzchniowej. Podobnie wiele relacji między danymi na poziomie mikro jest po prostu zatraconych w procesie agregacji, a takie techniki interpolacji nie będą w stanie ich odzyskać. Także proces, w którym dane są interpolowane empirycznie (poprzez szacowanie wariogramów na podstawie danych na poziomie zagregowanym), jest często dość doraźny, co powinno budzić wątpliwości w tym procesie (Goovaerts, 2008).
Niestety, zamieszczam to w osobnej odpowiedzi, ponieważ literatura na temat wnioskowania ekologicznego i literatura na temat mapowania dasymetrycznego i krigingu obszarowego nie pokrywają się. Chociaż literatura na temat wnioskowania ekologicznego ma wiele implikacji dla tych technik. Techniki interpolacji podlegają nie tylko tendencyjności agregacji, ale inteligentne techniki dasymetryczne (wykorzystujące dane zagregowane do dopasowania modeli do przewidywania mniejszych obszarów) są prawdopodobnie podejrzane o tendencję agregacji. Znajomość sytuacji, w których występuje tendencyjność agregacji, powinna być pouczająca o sytuacjach, w których interpolacja powierzchniowa i mapowanie dasymetryczne w dużej mierze zawiodą (szczególnie w odniesieniu do identyfikowania korelacji między różnymi zmiennymi na poziomie zdezagregowanym).
Cytowania
źródło
Interesujące byłoby dzieło Gary'ego Kinga, w szczególności jego książka „Rozwiązanie problemu wnioskowania ekologicznego” (pierwsze dwa rozdziały są dostępne tutaj ) (a także towarzyszące mu oprogramowanie, którego używa do wnioskowania ekologicznego). King pokazuje w swojej książce, w jaki sposób można ulepszyć szacunki modeli regresji wykorzystujących dane zagregowane, badając potencjalne granice, które grupy niższego poziomu mają na podstawie dostępnych danych zagregowanych. Fakt, że twoje dane są w większości kategorycznymi grupami, czyni je podatnymi na tę technikę. (Chociaż nie daj się zwieść, nie jest to tak wszechstronne rozwiązanie, jak można się spodziewać po tytule!) Istnieje więcej bieżących prac, ale książka Kinga to IMO najlepsze miejsce na rozpoczęcie.
Inną możliwością byłoby po prostu przedstawienie potencjalnych granic samych danych (na mapach lub wykresach). Na przykład możesz podać rozkład płci na poziomie zagregowanym (powiedzmy 5000 mężczyzn i 5000 kobiet) i wiesz, że ten zagregowany poziom obejmuje 2 różne małe jednostki powierzchni w populacjach 9 000 i 1 000 osób. Następnie możesz przedstawić to jako tabelę awaryjną formularza;
Chociaż nie masz informacji w komórkach dla agregacji niższego poziomu, z wartości krańcowych możemy stworzyć minimalne lub maksymalne potencjalne wartości dla każdej komórki. Tak więc w tym przykładzie
Men X Unit1
komórka może przyjmować wartości tylko między 4000 a 5000 (Za każdym razem, gdy rozkład krańcowy jest bardziej nierównomierny, im mniejszy przedział możliwych wartości przyjmą komórki). Najwyraźniej uzyskanie granic tabeli jest trudniejsze niż się spodziewałem ( Dobra i Fienberg, 2000 ), ale wydaje się, że funkcja jest dostępna weiPack
bibliotece w R ( Lau i in., 2007, s. 43 ).Analiza wielowymiarowa z danymi na poziomie zagregowanym jest trudna, ponieważ tendencyjność agregacji nieuchronnie występuje w przypadku tego rodzaju danych. (W skrócie, po prostu opisałbym stronniczość agregacji, ponieważ wiele różnych procesów generowania danych na poziomie indywidualnym może skutkować skojarzeniami na poziomie agregatów. Seria artykułów w American Sociological Revieww latach 70. XX wieku znajdują się niektóre z moich ulubionych odniesień do tematów (Firebaugh, 1978; Hammond, 1973; Hannan i Burstein, 1974), choć mogą to być źródła kanoniczne na ten temat (Fotheringham i Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Sądzę, że reprezentowanie potencjalnych granic, które dane mogą przyjąć, może być potencjalnie pobudzające, chociaż tak naprawdę przeszkadzają Ci ograniczenia agregacji danych do przeprowadzania analizy wielowymiarowej. Nie powstrzymuje to jednak nikogo przed naukami społecznymi (na dobre i na złe!)
Należy zauważyć (jak powiedział Charlie w komentarzach), że „rozwiązanie” Kinga spotkało się z dużą krytyką (Anselin i Cho, 2002; Freedman i in., 1998). Mimo że krytyki tej nie można powiedzieć o matematyce metody Kinga, tym bardziej w odniesieniu do sytuacji, w których metoda Kinga nadal nie uwzględnia błędu agregacji (i zgadzam się zarówno z Freedmanem, jak i Anselinem w tych sytuacjach, w których dane nauki społeczne są nadal podejrzane, że są znacznie bardziej powszechne niż te, które spełniają założenia króla). Jest to częściowo powód, dla którego sugeruję po prostu zbadanie granic (nie ma w tym nic złego), ale wyciąganie wniosków na temat korelacji poszczególnych poziomów z takich danych wymaga znacznie więcej skoków wiary, które ostatecznie są nieuzasadnione w większości sytuacji.
Cytowania
źródło
Nie jestem pewien, czy w literaturze istnieje dobrze zdefiniowana odpowiedź, biorąc pod uwagę, że wyszukiwarka Google podaje w zasadzie trzy użyteczne odniesienia do wielowymiarowego oszacowania małego obszaru. Pfeffermann (2002) omawia zmienne dyskretne odpowiedzi w sekcji 4 artykułu, ale będą to modele jednowymiarowe. Oczywiście, dzięki hierarchicznym metodom bayesowskim ( Rao 2003, rozdz. 10 ), możesz robić wszelkiego rodzaju cuda, ale jeśli w końcu po prostu powielasz swoje przeory (ponieważ masz tak mało danych), byłoby to okropne wynik ćwiczenia symulacyjnego. Poza tym Rao traktuje tylko zmienne ciągłe.
Myślę, że największym wyzwaniem będzie rozkład macierzy kowariancji na komponenty między i wewnątrz małych obszarów. Przy 1% próbce będziesz mieć tylko 3 obserwacje z twojego SAE, więc może być trudno uzyskać stabilne oszacowanie składnika wewnętrznego.
Gdybym był w twoich butach, wypróbowałbym wielowymiarowe rozszerzenie modelu Pfeffermann z wielowymiarowym losowym efektem małego obszaru. Rzeczywiście możesz do tego dojść do hierarchicznego modelu bayesowskiego, jeśli nic nie działa na podstawie projektu.
AKTUALIZACJA (aby odpowiedzieć na komentarz Andy'ego do tej odpowiedzi): metody ładowania początkowego do oszacowania małych obszarów ( Lahiri 2003 ) specjalnie odtwarzają wiarygodną populację z badania. Podczas gdy celem bootstrap jest oszacowanie wariancji oszacowań małego obszaru, procedury powinny być interesujące i istotne dla opublikowanego problemu.
źródło