Co możesz zrobić, gdy masz zmienne predykcyjne oparte na średnich grupowych o różnych wielkościach próby?

14

Rozważmy klasycznego problemu analizy danych, gdzie trzeba rezultatu Yi i jak to jest związane z wieloma czynnikami prognostycznymi Xi1,...,Xip . Podstawowym rodzajem aplikacji, o których tu mowa, jest to

  1. Yi jest wynikiem na poziomie grupy, takim jak wskaźnik przestępczości w mieściei .

  2. Predyktory są cechami na poziomie grupy, takimi jak cechy demograficzne miasta .i

Podstawowym celem jest dopasowanie modelu regresji (być może z efektami losowymi, ale na razie o tym zapomnij):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Czy występują trudności techniczne, gdy jeden (lub więcej) predyktorów jest wynikiem badania, które ma różne wielkości próby dla każdej jednostki? Załóżmy na przykład, że Xi1 to wynik sumaryczny dla miasta który jest średnią odpowiedzią z próby osób z miasta i, ale wielkości próbek, na których oparto te średnie, są bardzo różne:ii

CitySample size120210033004553

Ponieważ wszystkie zmienne predykcyjne nie mają w pewnym sensie tego samego znaczenia dla każdego miasta, obawiam się, że uwarunkowanie tych zmiennych w modelu regresji, tak jakby wszystkie były „równe”, może powodować wprowadzanie w błąd.

Czy istnieje nazwa tego typu problemu? Jeśli tak, to czy istnieją badania, jak sobie z tym poradzić?

Moim pomysłem jest potraktowanie go jako zmiennej predykcyjnej mierzonej błędem i zrobienie czegoś w tym kierunku, ale w błędach pomiaru występuje heteroskedastyczność, więc byłoby to bardzo skomplikowane. Mógłbym myśleć o tym w niewłaściwy sposób lub może to komplikować bardziej niż jest, ale każda dyskusja tutaj byłaby pomocna.

Makro
źródło
8
Nazywa się to problemem „heteroscedastycznych błędów w zmiennych”. (To wyrażenie jest dobrym celem dla wyszukiwarki Google.) Niedawno (2007) Delaigle i Meister zaproponowali nieparametryczny estymator gęstości jądra w artykule JASA . Streszczenie na temat niektórych metod parametrycznych (metoda momentów i MLE) sugeruje kilka dodatkowych podejść: sciencedirect.com/science/article/pii/S1572312709000045 . (Nie jestem wystarczająco zaznajomiony z badaniami, aby udzielić wiarygodnej odpowiedzi na temat tego, jak postępować z konkretnym
zestawem
1
@whuber +1 dla obu komentarzy. Myślę, że „błędy w zmiennych” były brakującym słowem kluczowym, którego szukałem. Jeśli nikt nie udzieli mocnej odpowiedzi poniżej, którą mogę zaakceptować, przejrzę literaturę i wrócę, aby opublikować wszystko, co ostatecznie zrobię jako odpowiedź.
Makro

Odpowiedzi:

2

Artykuł „Heteroscedastyczny model błędów zmiennych w zmiennych z błędem równania” można pobrać na stronie autora:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

zasadniczo należy wziąć pod uwagę zmienność obu zmiennych, aby uniknąć niespójnych estymatorów, niewiarygodnych testów hipotez i przedziałów ufności.

Alexandre Patriota
źródło
0

σ2Xiσ2/ninii

Michael R. Chernick
źródło
Wydaje się to rozsądne, chociaż miałem nadzieję, że w ogóle nie będę musiał modelować błędu pomiaru. Gdybym poszedł w tym kierunku, czego byś użył do oszacowania efektu predyktora mierzonego błędem? Użyłem jednej metody o nazwie SIMEX, ale wydaje się to rzadkie i zastanawiam się, czy są inne opcje.
Makro,
@Macro Nie znam konkretnego oprogramowania do modelowania regresji z funkcją wariancji do oszacowania.
Michael R. Chernick,
3
Makro, jako ogólna reguła w regresji homoscedastycznej z błędami w zmiennych, jeśli błędy w IV są małe w porównaniu do błędów w DV, możesz bezpiecznie zignorować te pierwsze i zastosować zwykłą regresję. To daje szybki i prosty sposób na rozwiązanie problemu.
whuber
1
@ whuber, dzięki - to się przydaje. Wydaje się, że jeśli ta praktyczna zasada ma sens, wówczas w przypadku heteroskedastyczności sensowne byłoby użycie „jeśli największa wariancja błędu w IV jest niewielka w porównaniu do wariancji błędu w DV, można bezpiecznie zignorować problem” rozsądna zasada, która może być spełniona w danych, na które patrzę.
Makro
1
σ211/n(.05,1)Yi