Aby rozwinąć nieco odpowiedź @ ken-butler. Dodając zarówno zmienną ciągłą (godziny), jak i zmienną wskaźnikową dla wartości specjalnej (godziny = 0 lub bez karmienia piersią), myślisz, że istnieje efekt liniowy dla wartości „niespecjalnej” i dyskretny skok w przewidywany wynik według specjalnej wartości. Pomaga (przynajmniej dla mnie) spojrzeć na wykres. W poniższym przykładzie modelujemy stawkę godzinową jako funkcję godzin tygodniowo, jaką pracują respondenci (wszystkie kobiety), i uważamy, że jest coś wyjątkowego w „standardowych” 40 godzinach tygodniowo:
Kod, który wytworzył ten wykres (w Stata) można znaleźć tutaj: http://www.stata.com/statalist/archive/2013-03/msg00088.html
Tak więc w tym przypadku przypisaliśmy zmiennej ciągłej wartość 40, mimo że chcieliśmy, aby była traktowana inaczej niż inne wartości. Podobnie, dawałbyś swoim tygodniom karmienie piersią wartość 0, nawet jeśli uważasz, że jakościowo różni się od innych wartości. Interpretuję twój komentarz poniżej, że uważasz, że jest to problem. Tak nie jest i nie trzeba dodawać terminu interakcji. W rzeczywistości ten termin interakcji zostanie odrzucony z powodu idealnej kolinearności, jeśli spróbujesz. To nie jest ograniczenie, tylko mówi, że warunki interakcji nie dodają żadnych nowych informacji.
Powiedz, że twoje równanie regresji wygląda następująco:
y^=β1weeks_breastfeeding+β2non_breastfeeding+⋯
W przypadku, gdy oznacza liczbę tygodni piersią (włączając wartości 0 do tych, które nie karmić piersią), a n o n _ b r e e t f e e d i n g jest zmienną wskaźnikową, która wynosi 1, gdy ktoś nie karmi piersią, i 0 w przeciwnym razie.weeks_breastfeedingnon_breastfeeding
Zastanów się, co się dzieje, gdy ktoś karmi piersią. Równanie regresji upraszcza:
y^=β1weeks_breastfeeding+β20+⋯=β1weeks_breastfeeding+⋯
Tak więc jest tylko liniowym efektem liczby tygodni karmienia piersią dla tych, którzy karmią piersią.β1
Zastanów się, co się dzieje, gdy ktoś nie karmi piersią:
y^=β10+β21+⋯=β2+⋯
Zatem daje efekt braku karmienia piersią, a liczba tygodni karmienia piersią spada z równania.β2
Widać, że nie ma potrzeby dodawania terminu interakcji, ponieważ ten termin interakcji już tam jest (niejawnie).
Jest jednak coś dziwnego w , ponieważ mierzy efekt karmienia piersią, porównując oczekiwany wynik tych, którzy nie karmią piersią z tymi, którzy karmią piersią, ale robią to tylko 0 tygodni ... To ma sens w „porównaniu w podobny sposób, ale praktyczna przydatność nie jest od razu oczywista. Bardziej sensowne może być porównanie „kobiet nie karmiących piersią” z tymi kobietami, które karmiły piersią przez 12 tygodni (około 3 miesięcy). W takim przypadku daj "nie-breastfeeders" wartość 12 do w e e k s _ b r e y t m e e d I n gβ2weeks_breastfeeding. Tak więc wartość można przypisywanych do „nie-breastfeeders” wpływa na współczynnik regresji β 2, w tym sensie, że określa, z którym „non „karmniki” są porównywane. Zamiast problemu jest to coś, co może być bardzo przydatne.weeks_breastfeedingβ2
Coś prostego: reprezentuj swoją zmienną wskaźnikiem 1/0 dla dowolnego / brak oraz rzeczywistą wartość. Umieść oba w regresji.
źródło
Jeśli umieścisz binarny wskaźnik dla czasu spędzonego w dowolnym czasie (= 1) w porównaniu do czasu niepotrzebnego (= 0), a następnie masz czas spędzony jako zmienną ciągłą, różnym efektem „0” razy będzie „ odebrane ”przez wskaźnik 0-1
źródło
Możesz używać modeli efektów mieszanych z grupowaniem opartym na czasie 0 względem czasu niezerowego i zachować swoją niezależną zmienną
źródło
Jeśli używasz Random Forest lub Neural Network, ustawienie tej liczby na 0 jest OK, ponieważ będą mogli dowiedzieć się, że 0 różni się wyraźnie od innych wartości (jeśli w rzeczywistości jest inna). Innym sposobem jest dodanie zmiennej kategorialnej tak / nie oprócz zmiennej czasowej.
Ale w sumie, w tym konkretnym przypadku nie widzę prawdziwego problemu - 0,1 tygodnia karmienia piersią jest bliskie zeru, a efekt będzie bardzo podobny, więc wygląda na to, że jest dla mnie ciągłą zmienną, przy czym 0 nie wyróżnia się niczym odrębny.
źródło
Myślę, że model Tobit jest tym, czego chcesz.
źródło