Czas spędzony na działaniu jako niezależna zmienna

14

Chcę uwzględnić czas spędzony na robieniu czegoś (np. Tygodni karmienia piersią) jako niezależną zmienną w modelu liniowym. Jednak niektóre obserwacje w ogóle nie angażują się w takie zachowanie. Kodowanie ich jako 0 nie jest w rzeczywistości prawdą, ponieważ 0 różni się jakościowo od dowolnej wartości> 0 (tj. Kobiety, które nie karmią piersią, mogą bardzo różnić się od kobiet, które to robią, nawet te, które nie robią tego zbyt długo). Najlepsze, co mogę wymyślić, to zestaw manekinów, który kategoryzuje spędzony czas, ale to marnowanie cennych informacji. Coś w rodzaju Poissona z zerowym napełnieniem również wydaje się być możliwe, ale nie mogę dokładnie ustalić, jak by to wyglądało w tym kontekście. Czy ktoś ma jakieś sugestie?

DL Dahly
źródło

Odpowiedzi:

16

Aby rozwinąć nieco odpowiedź @ ken-butler. Dodając zarówno zmienną ciągłą (godziny), jak i zmienną wskaźnikową dla wartości specjalnej (godziny = 0 lub bez karmienia piersią), myślisz, że istnieje efekt liniowy dla wartości „niespecjalnej” i dyskretny skok w przewidywany wynik według specjalnej wartości. Pomaga (przynajmniej dla mnie) spojrzeć na wykres. W poniższym przykładzie modelujemy stawkę godzinową jako funkcję godzin tygodniowo, jaką pracują respondenci (wszystkie kobiety), i uważamy, że jest coś wyjątkowego w „standardowych” 40 godzinach tygodniowo:

wprowadź opis zdjęcia tutaj

Kod, który wytworzył ten wykres (w Stata) można znaleźć tutaj: http://www.stata.com/statalist/archive/2013-03/msg00088.html

Tak więc w tym przypadku przypisaliśmy zmiennej ciągłej wartość 40, mimo że chcieliśmy, aby była traktowana inaczej niż inne wartości. Podobnie, dawałbyś swoim tygodniom karmienie piersią wartość 0, nawet jeśli uważasz, że jakościowo różni się od innych wartości. Interpretuję twój komentarz poniżej, że uważasz, że jest to problem. Tak nie jest i nie trzeba dodawać terminu interakcji. W rzeczywistości ten termin interakcji zostanie odrzucony z powodu idealnej kolinearności, jeśli spróbujesz. To nie jest ograniczenie, tylko mówi, że warunki interakcji nie dodają żadnych nowych informacji.

Powiedz, że twoje równanie regresji wygląda następująco:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

W przypadku, gdy oznacza liczbę tygodni piersią (włączając wartości 0 do tych, które nie karmić piersią), a n o n _ b r e e t f e e d i n g jest zmienną wskaźnikową, która wynosi 1, gdy ktoś nie karmi piersią, i 0 w przeciwnym razie.weeks_breastfeedingnon_breastfeeding

Zastanów się, co się dzieje, gdy ktoś karmi piersią. Równanie regresji upraszcza:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

Tak więc jest tylko liniowym efektem liczby tygodni karmienia piersią dla tych, którzy karmią piersią.β1

Zastanów się, co się dzieje, gdy ktoś nie karmi piersią:

y^=β10+β21+=β2+

Zatem daje efekt braku karmienia piersią, a liczba tygodni karmienia piersią spada z równania.β2

Widać, że nie ma potrzeby dodawania terminu interakcji, ponieważ ten termin interakcji już tam jest (niejawnie).

Jest jednak coś dziwnego w , ponieważ mierzy efekt karmienia piersią, porównując oczekiwany wynik tych, którzy nie karmią piersią z tymi, którzy karmią piersią, ale robią to tylko 0 tygodni ... To ma sens w „porównaniu w podobny sposób, ale praktyczna przydatność nie jest od razu oczywista. Bardziej sensowne może być porównanie „kobiet nie karmiących piersią” z tymi kobietami, które karmiły piersią przez 12 tygodni (około 3 miesięcy). W takim przypadku daj "nie-breastfeeders" wartość 12 do w e e k s _ b r e y t m e e d I n gβ2weeks_breastfeeding. Tak więc wartość można przypisywanych do „nie-breastfeeders” wpływa na współczynnik regresji β 2, w tym sensie, że określa, z którym „non „karmniki” są porównywane. Zamiast problemu jest to coś, co może być bardzo przydatne.weeks_breastfeedingβ2

Maarten Buis
źródło
1
Doceniam odpowiedź (i inne), ale trudno mi ją zaakceptować. Jeśli dołączę 1: 0 i ciągłą zmienną czasową, nadal muszę przypisać karmnikom innym niż karmienie piersią wartość czasu (w przeciwnym razie będą one spadać z powodu braku współzmienności). Nawet uwarunkowane zmienną 1: 0, nie rozumiem, w jaki sposób uwzględnienie karmników nie karmiących piersią, ponieważ czas = 0 nie wpływa na współczynnik regresji. Być może dodanie sensu interakcji produktu między nimi byłoby bardziej sensowne?
DL Dahly,
@DLDahly Zredagowałem moją odpowiedź, aby poradzić sobie z tymi wątpliwościami
Maarten Buis,
Ok, to bardzo pomocne. Pozwólcie, że zapytam o jeszcze jedną szybką kontynuację ... jeśli dobrze cię rozumiem, to szacunkowa wartość B1 powinna być taka sama, niezależnie od tego, jaką wartość czasu podam B2 = 1 osobom. Czy to prawda?
DL Dahly,
1
Bardzo miła odpowiedź Maarten. Oto podobne pytanie / odpowiedź na stronie, która pokazuje podobną sytuację z włączeniem niezależnej zmiennej, która dotyczy tylko określonej podgrupy .
Andy W
1
@ GavinM.Jones Nigdy nie myślałem o potrzebie nadania mu nazwy ani cytowania tego: jest to proste zastosowanie zmiennych ciągłych i zmiennych wskaźnikowych. W związku z tym nie mam dla ciebie dobrych referencji. Ostatnią rzeczą, którą mogłem szybko wykopać, jest Treiman, DJ (2009): Analiza danych ilościowych. Przeprowadzanie badań społecznych w celu przetestowania pomysłów. San Francisco: Jossey-Bass. , rozdział 7 omawiał coś podobnego. Model zawiera stałą.
Maarten Buis
6

Coś prostego: reprezentuj swoją zmienną wskaźnikiem 1/0 dla dowolnego / brak oraz rzeczywistą wartość. Umieść oba w regresji.

Ken Butler
źródło
4

Jeśli umieścisz binarny wskaźnik dla czasu spędzonego w dowolnym czasie (= 1) w porównaniu do czasu niepotrzebnego (= 0), a następnie masz czas spędzony jako zmienną ciągłą, różnym efektem „0” razy będzie „ odebrane ”przez wskaźnik 0-1

Glen_b - Przywróć Monikę
źródło
2

Możesz używać modeli efektów mieszanych z grupowaniem opartym na czasie 0 względem czasu niezerowego i zachować swoją niezależną zmienną

rezakhorshidi
źródło
Czy mógłbyś trochę rozwinąć tę kwestię? Wielkie dzięki.
DL Dahly,
model efektów mieszanych zakłada, że ​​istnieje czynnik, który dzieli dane na różne (heterogeniczne) segmenty, w każdym z których możemy mieć inną zależność między zmiennymi objaśniającymi i zależnymi (zarówno jeśli chodzi o intercept, jak i intercept oraz nachylenie / współczynnik). en.wikipedia.org/wiki/Mixed_model
rezakhorshidi 18.04.2013
Więc wykorzystaj osobniki, zagnieżdżone w stanie karmienia piersią, a następnie losowe nachylenie w tygodniach karmienia piersią? Mógłbym to zrobić jako SEM dość łatwo i przetestować pewne ograniczenia. Dzięki +1
DL Dahly 18.04.13
1

Jeśli używasz Random Forest lub Neural Network, ustawienie tej liczby na 0 jest OK, ponieważ będą mogli dowiedzieć się, że 0 różni się wyraźnie od innych wartości (jeśli w rzeczywistości jest inna). Innym sposobem jest dodanie zmiennej kategorialnej tak / nie oprócz zmiennej czasowej.

Ale w sumie, w tym konkretnym przypadku nie widzę prawdziwego problemu - 0,1 tygodnia karmienia piersią jest bliskie zeru, a efekt będzie bardzo podobny, więc wygląda na to, że jest dla mnie ciągłą zmienną, przy czym 0 nie wyróżnia się niczym odrębny.

sashkello
źródło
3
+1 za pierwszy akapit, ale zajmując się naukami społecznymi lub danymi medycznymi, efekt 0 vs. 0,1 tygodnia czegoś nie jest głównym zmartwieniem. Chodzi o to, że kobiety, które w ogóle nie podejmują próby lub nie zgłaszają karmienia piersią, mogą systematycznie różnić się pod wieloma innymi względami (problemy zdrowotne, dochody, sytuacja rodzinna, zdolność do pozostania poza pracą, dostęp do usług zdrowotnych, skąd uzyskali informacje o rodzicielstwo itp.) Naprawdę nie ma powodu, aby sądzić, że te kobiety są bardzo podobne do matek, które próbują karmić piersią i szybko to przerywają.
Gala
1
Z statystycznego punktu widzenia lepiej byłoby umieścić te inne zmienne wprost w swoim modelu, ale rozsądnie jest uważać, zakładając, że nic specjalnego nie dzieje się na 0, tak myślę.
Gala
0

Myślę, że model Tobit jest tym, czego chcesz.

Mark T Patterson
źródło
5
Tobity są używane, gdy wynik jest ocenzurowany powyżej lub poniżej pewnego progu. Na przykład nie obserwujemy żadnych wynagrodzeń poniżej płacy minimalnej ani dochodów powyżej niektórych najwyższych zakodowanych wartości. Ta aplikacja jest dla niezależnej zmiennej.
Dimitriy V. Masterov