W jaki sposób zmiana wagi danych z różnorodności w American Community Survey wpłynie na margines błędu?

10

Kontekst: Moja organizacja obecnie porównuje statystyki dotyczące różnorodności siły roboczej (np.% Osób niepełnosprawnych,% kobiet,% weteranów) z całkowitą dostępnością siły roboczej dla tych grup na podstawie American Community Survey (projekt ankietowy przeprowadzony przez US Census Bureau). Jest to niedokładny punkt odniesienia, ponieważ mamy bardzo konkretny zestaw miejsc pracy, które mają inne dane demograficzne niż siła robocza jako całość. Powiedz na przykład, że moja organizacja to głównie inżynierowie. Inżynieria to tylko około 20% kobiet w moim stanie. Jeśli porównamy się z całkowitym wskaźnikiem siły roboczej, który jest bardziej podobny do 50% kobiet, wywołuje to panikę, że „mamy tylko 20% kobiet, to katastrofa!” kiedy tak naprawdę 20% jest tym, czego powinniśmy się spodziewać, ponieważ tak wygląda krajobraz pracy.

Mój cel: Chciałbym wziąć dane o zawodzie American Community Survey (według kategorii różnorodności) i ponownie je wyważyć na podstawie składu stanowisk w mojej firmie. Oto przykładowy zestaw danych dla pracowników służb społecznych i społecznych . Chcę dodać te kody stanowisk wymienione razem (ponieważ nasze przejście dla pieszych dotyczy grup stanowisk, a nie konkretnych kodów zadań), a następnie chcę zważyć ten punkt odniesienia na podstawie liczby osób, które mamy w tej kategorii (np. 3 000 Społeczności i Pracownicy służby społecznej), a następnie chcę zrobić to samo dla wszystkich innych grup stanowisk, dodać te liczby razem i podzielić przez naszą całkowitą liczbę pracowników. Dałoby mi to nowy, ponownie ważony wskaźnik różnorodności (np. Od 6% osób niepełnosprawnych do 2% osób niepełnosprawnych).

Moje pytania: Jak dopasować marginesy błędu do tego końcowego zrolowanego testu porównawczego? Nie mam surowego zestawu danych spisu (oczywiście), ale możesz zobaczyć marginesy błędu dla każdej liczby w linku, który podałem, przełączając pole „Szacunek” na „Margines błędu” u góry tabeli. Moi inni współpracownicy, którzy pracują z tymi danymi, w pełni zamierzają zignorować margines błędu, ale martwię się, że tworzymy dla siebie statystycznie nieistotny punkt odniesienia. Czy dane te są nadal przydatne po opisanej powyżej manipulacji?

DanicaE
źródło
3
Nie zmieniaj wagi ACS - jest to delikatny, bardzo wyrafinowany produkt i z całym szacunkiem nie sądzę, abyś był tak dobrym statystykiem, jak zbiorowe Biuro Spisu Powszechnego. Jeśli możesz uzyskać definicje pracy zgodne z Twoim zadaniem w ACS lub CPS dla porównań w całym kraju, to porównanie jabłek z jabłkami polegałoby na obliczeniu oczekiwanej liczby kategorii „różnorodności” w oparciu o ACS, aby Twoja firma działała jako rozsądna różnorodność cele.
StasK
2
Staś, zgadzam się z tobą, ale jak wskazuję poniżej, tak naprawdę nie jest to ponowne ważenie ACS.
Steve Samuels
W statystykach ankiet „przeważenie” oznaczałoby przekształcenie pierwotnych wag ankiet. Przykładem może być po stratyfikacji, grabieniu próbek lub kalibracji, tak aby pewne rozkłady krańcowe dla ponownie ważonej próbki pasowały do ​​rozkładów znanych na zewnątrz, powiedzmy ze spisu powszechnego lub ACS. Procedura, o której wspomina Danica, nie dotyka wag ACS.
Steve Samuels
Pomocne może być zanotowanie skończonej liczby ludności, którą chcesz znać. Czy ACS ma również wagi replikacyjne? Mogą one pomóc w oszacowaniu wariancji.
probabilityislogic

Odpowiedzi:

8

Aktualizacja 15.01.2014

Zdaję sobie sprawę, że nie odpowiedziałem na pierwotne pytanie Daniki dotyczące tego, czy margines błędu dla pośrednio skorygowanej proporcji wyłączonej byłby większy czy mniejszy niż margines błędu dla tego samego wskaźnika w ACS. Odpowiedź jest następująca: jeśli proporcje kategorii przedsiębiorstw nie różnią się drastycznie od proporcji stanu ACS, podany poniżej margines błędu będzie mniejszy niż margines błędu ACS. Powód: stawka pośrednia traktuje kategorię pracy organizacji, którą osoba liczy (lub proporcje względne) jako liczby stałe . Oszacowanie proporcji niepełnosprawnych ACS wymaga w rzeczywistości oszacowania tych proporcji, a marginesy błędu wzrosną, aby to odzwierciedlić.

Aby to zilustrować, napisz niepełnosprawność jako:

P^adj=ninpi^

gdzie p i jest szacowany współczynnik niepełnosprawnej w kategorii í w ACS.p^ii

Z drugiej strony, szacunkowa stawka ACS jest w efekcie:

P^acs=(NiN)^pi^

gdzie i N są odpowiednio kategoria ludności i ogólnej sumy i N I / N jest odsetek ludności w kategorii I .NiNNi/Ni

Zatem błąd standardowy dla stawki ACS będzie większy ze względu na potrzebę oszacowania oprócz p iNi/Npi .

SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001n2/n=0.999SE(P^adj)=0.079

Aktualizacja 14.01.2014

Krótka odpowiedź

Moim zdaniem przedstawienie takiej statystyki bez CI lub marginesu błędu (połowa długości CI) byłoby nieodpowiedzialne. Aby je obliczyć, należy pobrać i przeanalizować próbkę mikrodanych do użytku publicznego ACS (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Długa odpowiedź

To nie jest tak naprawdę zmiana wagi ACS. Jest to wersja pośredniej standaryzacji, standardowej procedury w epidemiologii (google lub zobacz dowolny tekst epi). W takim przypadku wskaźniki niepełnosprawności na stanowisku (kategorii) ACS są ważone przez liczbę pracowników kategorii stanowisk w organizacji. Spowoduje to obliczenie oczekiwanej liczby osób niepełnosprawnych w organizacji E, którą można porównać do obserwowanej liczby O. Zwykle miarą do porównania jest znormalizowany współczynnik R= (O/E). (Zwykłym terminem jest „SMR” dla „znormalizowanego współczynnika umieralności”, ale tutaj „rezultatem” jest niepełnosprawność.) Rjest także stosunkiem obserwowanej stopy niepełnosprawności (O/n)do pośrednio standaryzowanej stopy (E/n), gdzie njest liczba pracowników organizacji.

W tym przypadku wydaje się, że tylko CI będzie Elub E/nbędzie potrzebne, więc zacznę od tego:

Gdyby

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Następnie

 E = sum (n_i p_i)

Wariant Ejest następujący:

 var(E) = nn' V nn

gdzie nnjest wektor kolumnowy kategorii organizacji i Vjest to szacunkowa macierz wariancji-kowariancji wskaźników niepełnosprawności kategorii ACS.

Również, trywialnie, se(E) = sqrt(var(E))i se(E/n) = se(E)/n.

a 90% CI dla E wynosi

  E ± 1.645 SE(E)

Podziel przez, naby uzyskać CI E/n.

Aby oszacować var(E), należy pobrać i przeanalizować dane ACS Public Use Microdata Sample (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Mogę tylko mówić o procesie obliczeniowym var(E)w Stacie. Ponieważ nie wiem, czy to dla ciebie dostępne, odłożę szczegóły. Jednak osoba znająca możliwości ankietowe R lub (ewentualnie) SAS może również dostarczyć kod z powyższych równań.

Przedział ufności dla współczynnika R

Przedziały ufności dla Rsą zwykle oparte na założeniu Poissona dla O, ale założenie to może być niepoprawne.

Możemy więc uznać Oi Ebyć niezależnymi, więc

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))można obliczyć jako kolejny krok Stata po obliczeniu var(E).

Zgodnie z założeniem niezależności Poissona:

 var(log O) ~ 1/E(O).

Program taki jak Stata może pasować, powiedzmy, ujemny model dwumianowy lub uogólniony model liniowy i dać dokładniejszy termin wariancji.

W przybliżeniu 90% przedział ufności dla log RIs

 log R ± 1.645 sqrt(var(log R))

i punkty końcowe mogą być potęgowane wykładniczo, aby uzyskać CI R.

Steve Samuels
źródło
log(R)R
Nie wydawało mi się to przypadkiem, w którym rozmazanie było właściwe, ale mogłem się mylić. Co byś zasugerował?
Steve Samuels
Niektóre metody wymienione w CV obejmują przechwytywanie CI, metodę delta i profilowanie funkcji prawdopodobieństwa.
whuber
Dzięki za odpowiedź. Czy można pobrać dane PUMS za pomocą R? Nie mam SAS. Wyciągnąłem dane PUMS przed użyciem narzędzia DataFerret dostarczonego przez spis, ale nie jestem pewien, czy to daje mi wszystko, co mógłbym z łatwością manipulować w Excelu, co mam. Oczywiście mogę zainstalować R, ale nie mam z tym żadnego doświadczenia.
DanicaE
1
Nie ma za co, Danica. Jeśli ta odpowiedź jest pomocna, kliknij znacznik wyboru, aby ją oficjalnie zaakceptować. Zauważ, że zaktualizowałem odpowiedź. Zalecam przedstawienie marginesów błędu ACS jako konserwatywnych zamienników właściwych.
Steve Samuels
4

FWIW istnieją dobre zasoby dla ACS i dostępu do PUMS tutaj ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Istnieje również pakiet do obsługi danych ACS w CRAN - zwany oczywiście ACS - który okazał się bardzo pomocny w robieniu nietypowych rzeczy z danymi ACS. Jest to dobry krok po kroku dla pakietu (niestety dokumentacja nie jest bardzo intuicyjna) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf

pricele2
źródło
3

dodając do linku http://asdfree.com w odpowiedzi @ pricele2 .. w celu rozwiązania tego problemu z wolnym oprogramowaniem, zachęcam do wykonania następujących kroków:

(1) ( dwie godziny ciężkiej pracy ) zapoznaj się z językiem r. obejrzyj pierwsze 50 filmów, po dwie minuty

http://twotorials.com/

(2) ( jedna godzina łatwego wykonywania instrukcji ) zainstaluj monetdb na swoim komputerze

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( trzydzieści minut po instrukcji + pobieranie z dnia na dzień ) pobierz acs pums na swój komputer. zdobądź tylko tyle lat, ile potrzebujesz.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( cztery godziny nauki, programowania i sprawdzania pracy ) przekoduj zmienne, które musisz przekodować, zgodnie z wymaganymi specyfikacjami

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( dwie godziny faktycznej analizy ) uruchom dokładnie to polecenie, którego szukasz, przechwyć błąd standardowy i oblicz przedział ufności.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( cztery godziny programowania ), jeśli potrzebujesz estymatora proporcji, postępuj zgodnie z przykładem estymacji proporcji (z prawidłowo skorygowanym błędem standardowym) tutaj:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552

Anthony Damico
źródło
Dziękuję, to są doskonałe zasoby. Jeśli ktoś tu przyjdzie i szuka tych informacji, samouczki R, z których korzystam, to: datacamp.com i coursera.org/course/rprog . Data Camp to fantastyczny interaktywny samouczek. Kurs Coursera jest bardziej obciążony teorią / strukturą / nazwami rzeczy.
DanicaE