Kontekst: Moja organizacja obecnie porównuje statystyki dotyczące różnorodności siły roboczej (np.% Osób niepełnosprawnych,% kobiet,% weteranów) z całkowitą dostępnością siły roboczej dla tych grup na podstawie American Community Survey (projekt ankietowy przeprowadzony przez US Census Bureau). Jest to niedokładny punkt odniesienia, ponieważ mamy bardzo konkretny zestaw miejsc pracy, które mają inne dane demograficzne niż siła robocza jako całość. Powiedz na przykład, że moja organizacja to głównie inżynierowie. Inżynieria to tylko około 20% kobiet w moim stanie. Jeśli porównamy się z całkowitym wskaźnikiem siły roboczej, który jest bardziej podobny do 50% kobiet, wywołuje to panikę, że „mamy tylko 20% kobiet, to katastrofa!” kiedy tak naprawdę 20% jest tym, czego powinniśmy się spodziewać, ponieważ tak wygląda krajobraz pracy.
Mój cel: Chciałbym wziąć dane o zawodzie American Community Survey (według kategorii różnorodności) i ponownie je wyważyć na podstawie składu stanowisk w mojej firmie. Oto przykładowy zestaw danych dla pracowników służb społecznych i społecznych . Chcę dodać te kody stanowisk wymienione razem (ponieważ nasze przejście dla pieszych dotyczy grup stanowisk, a nie konkretnych kodów zadań), a następnie chcę zważyć ten punkt odniesienia na podstawie liczby osób, które mamy w tej kategorii (np. 3 000 Społeczności i Pracownicy służby społecznej), a następnie chcę zrobić to samo dla wszystkich innych grup stanowisk, dodać te liczby razem i podzielić przez naszą całkowitą liczbę pracowników. Dałoby mi to nowy, ponownie ważony wskaźnik różnorodności (np. Od 6% osób niepełnosprawnych do 2% osób niepełnosprawnych).
Moje pytania: Jak dopasować marginesy błędu do tego końcowego zrolowanego testu porównawczego? Nie mam surowego zestawu danych spisu (oczywiście), ale możesz zobaczyć marginesy błędu dla każdej liczby w linku, który podałem, przełączając pole „Szacunek” na „Margines błędu” u góry tabeli. Moi inni współpracownicy, którzy pracują z tymi danymi, w pełni zamierzają zignorować margines błędu, ale martwię się, że tworzymy dla siebie statystycznie nieistotny punkt odniesienia. Czy dane te są nadal przydatne po opisanej powyżej manipulacji?
Odpowiedzi:
Aktualizacja 15.01.2014
Zdaję sobie sprawę, że nie odpowiedziałem na pierwotne pytanie Daniki dotyczące tego, czy margines błędu dla pośrednio skorygowanej proporcji wyłączonej byłby większy czy mniejszy niż margines błędu dla tego samego wskaźnika w ACS. Odpowiedź jest następująca: jeśli proporcje kategorii przedsiębiorstw nie różnią się drastycznie od proporcji stanu ACS, podany poniżej margines błędu będzie mniejszy niż margines błędu ACS. Powód: stawka pośrednia traktuje kategorię pracy organizacji, którą osoba liczy (lub proporcje względne) jako liczby stałe . Oszacowanie proporcji niepełnosprawnych ACS wymaga w rzeczywistości oszacowania tych proporcji, a marginesy błędu wzrosną, aby to odzwierciedlić.
Aby to zilustrować, napisz niepełnosprawność jako:
gdzie p i jest szacowany współczynnik niepełnosprawnej w kategorii í w ACS.p^i i
Z drugiej strony, szacunkowa stawka ACS jest w efekcie:
gdzie i N są odpowiednio kategoria ludności i ogólnej sumy i N I / N jest odsetek ludności w kategorii I .Ni N Ni/N i
Zatem błąd standardowy dla stawki ACS będzie większy ze względu na potrzebę oszacowania oprócz p iNi/N pi .
Aktualizacja 14.01.2014
Krótka odpowiedź
Moim zdaniem przedstawienie takiej statystyki bez CI lub marginesu błędu (połowa długości CI) byłoby nieodpowiedzialne. Aby je obliczyć, należy pobrać i przeanalizować próbkę mikrodanych do użytku publicznego ACS (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Długa odpowiedź
To nie jest tak naprawdę zmiana wagi ACS. Jest to wersja pośredniej standaryzacji, standardowej procedury w epidemiologii (google lub zobacz dowolny tekst epi). W takim przypadku wskaźniki niepełnosprawności na stanowisku (kategorii) ACS są ważone przez liczbę pracowników kategorii stanowisk w organizacji. Spowoduje to obliczenie oczekiwanej liczby osób niepełnosprawnych w organizacji
E
, którą można porównać do obserwowanej liczbyO
. Zwykle miarą do porównania jest znormalizowany współczynnikR= (O/E)
. (Zwykłym terminem jest „SMR” dla „znormalizowanego współczynnika umieralności”, ale tutaj „rezultatem” jest niepełnosprawność.)R
jest także stosunkiem obserwowanej stopy niepełnosprawności(O/n)
do pośrednio standaryzowanej stopy(E/n)
, gdzien
jest liczba pracowników organizacji.W tym przypadku wydaje się, że tylko CI będzie
E
lubE/n
będzie potrzebne, więc zacznę od tego:Gdyby
Następnie
Wariant
E
jest następujący:gdzie
nn
jest wektor kolumnowy kategorii organizacji iV
jest to szacunkowa macierz wariancji-kowariancji wskaźników niepełnosprawności kategorii ACS.Również, trywialnie,
se(E) = sqrt(var(E))
ise(E/n) = se(E)/n
.a 90% CI dla E wynosi
Podziel przez,
n
aby uzyskać CIE/n
.Aby oszacować
var(E)
, należy pobrać i przeanalizować dane ACS Public Use Microdata Sample (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).Mogę tylko mówić o procesie obliczeniowym
var(E)
w Stacie. Ponieważ nie wiem, czy to dla ciebie dostępne, odłożę szczegóły. Jednak osoba znająca możliwości ankietowe R lub (ewentualnie) SAS może również dostarczyć kod z powyższych równań.Przedział ufności dla współczynnika
R
Przedziały ufności dla
R
są zwykle oparte na założeniu Poissona dlaO
, ale założenie to może być niepoprawne.Możemy więc uznać
O
iE
być niezależnymi, więcvar(log(E))
można obliczyć jako kolejny krok Stata po obliczeniuvar(E)
.Zgodnie z założeniem niezależności Poissona:
Program taki jak Stata może pasować, powiedzmy, ujemny model dwumianowy lub uogólniony model liniowy i dać dokładniejszy termin wariancji.
W przybliżeniu 90% przedział ufności dla
log R
Isi punkty końcowe mogą być potęgowane wykładniczo, aby uzyskać CI
R
.źródło
FWIW istnieją dobre zasoby dla ACS i dostępu do PUMS tutaj ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).
Istnieje również pakiet do obsługi danych ACS w CRAN - zwany oczywiście ACS - który okazał się bardzo pomocny w robieniu nietypowych rzeczy z danymi ACS. Jest to dobry krok po kroku dla pakietu (niestety dokumentacja nie jest bardzo intuicyjna) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf
źródło
dodając do linku http://asdfree.com w odpowiedzi @ pricele2 .. w celu rozwiązania tego problemu z wolnym oprogramowaniem, zachęcam do wykonania następujących kroków:
(1) ( dwie godziny ciężkiej pracy ) zapoznaj się z językiem r. obejrzyj pierwsze 50 filmów, po dwie minuty
http://twotorials.com/
(2) ( jedna godzina łatwego wykonywania instrukcji ) zainstaluj monetdb na swoim komputerze
http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html
(3) ( trzydzieści minut po instrukcji + pobieranie z dnia na dzień ) pobierz acs pums na swój komputer. zdobądź tylko tyle lat, ile potrzebujesz.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R
(4) ( cztery godziny nauki, programowania i sprawdzania pracy ) przekoduj zmienne, które musisz przekodować, zgodnie z wymaganymi specyfikacjami
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R
(5) ( dwie godziny faktycznej analizy ) uruchom dokładnie to polecenie, którego szukasz, przechwyć błąd standardowy i oblicz przedział ufności.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R
(6) ( cztery godziny programowania ), jeśli potrzebujesz estymatora proporcji, postępuj zgodnie z przykładem estymacji proporcji (z prawidłowo skorygowanym błędem standardowym) tutaj:
https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552
źródło