Ja zainteresowany interakcji leczeniem współzmienną w kontekście doświadczeń / randomizacją z binarnego przypisywania traktowania wskaźnik .
W zależności od konkretnej metody / źródła widziałem zarówno i dla leczonych i nieleczonych pacjentów.
Czy jest jakaś reguła, kiedy używać lub ?
Czym różni się interpretacja?
binary-data
categorical-encoding
cecefuss
źródło
źródło
Odpowiedzi:
Interpretacja zarówno estymatora zmiennej wskaźnikowej, jak i przecięcia jest różna. Zacznijmy od :{ 1 , 0 }
Powiedz, że masz następujący model
gdzie
W takim przypadku można skończyć z następujących wzorów dla :yja
Tak więc interpretacja jest efektem placebo, a interpretacja β 1 jest różnicą między efektem placebo a działaniem leku. W efekcie można interpretować β 1 jako ulepszenie oferowane przez lek.β0 β1 β1
Spójrzmy teraz na :{ - 1 , 1 }
Następnie masz następujący model (ponownie):
ale gdzie
W takim przypadku można skończyć z następujących wzorów dla :yi
Interpretacja jest tutaj taka, że jest średnią efektu placebo i działania leku, a β 1 jest różnicą między dwoma terapiami w stosunku do tej średniej.β0 β1
Więc którego używasz?
Interpretacja w { 0 , 1 } jest zasadniczo punktem odniesienia. Ustawiasz pewne standardowe leczenie, a wszystkie inne zabiegi (może być ich wiele) są porównywane z tym standardem / linią bazową. Zwłaszcza, gdy zaczynasz dodawać inne zmienne towarzyszące, łatwo jest to zinterpretować w odniesieniu do standardowego pytania medycznego: jak te leki różnią się od placebo lub ustalonego leku?β0 {0,1}
Ale ostatecznie wszystko jest kwestią interpretacji, którą wyjaśniłem powyżej. Powinieneś więc ocenić swoje hipotezy i sprawdzić, która interpretacja sprawia, że wyciąganie wniosków jest najprostsze.
źródło
W kontekście regresji liniowej jest bardziej naturalną (i standardową) metodą kodowania zmiennych binarnych (umieszczając je po lewej stronie prawej strony regresji). Jak wyjaśnia @Jarko Dubbeldam, możesz oczywiście użyć innej interpretacji, a znaczenie współczynników będzie inne.xi∈{0,1}
Dla przykładu, kodowanie zmiennych wyjściowych jest standardem podczas programowania lub wyprowadzania matematyki leżącej u podstaw maszyn wektorów wsparcia . (Wywołując biblioteki, chcesz przekazać dane w formacie, którego oczekuje biblioteka, prawdopodobnie jest to sformułowanie 0, 1).yi∈{−1,1}
Spróbuj użyć notacji, która jest standardowa dla tego, co robisz / używasz.
Dla każdego rodzaju modelu liniowego z terminem przechwytującym obie metody będą równoważne w tym sensie, że są powiązane prostą transformacją liniową. Matematycznie nie ma znaczenia, czy używasz macierzy danych czy macierzy danych ˜ X = X A, gdzie A ma pełną rangę. W ogólny model liniowy, szacunkowe współczynniki albo sposób będą związane przez liniowej transformacji A i dopasowanymi wartościami y będą takie same.X X~=XA A A y^
źródło
Jest to bardziej abstrakcyjne (i być może bezużyteczne), ale zauważę, że te dwie reprezentacje są w sensie matematycznym faktycznie reprezentacjami grupowymi i istnieje między nimi izomorfizm.
Znaczenie zmiennej wskaźnikowej , w sercu boolowskiej, brzmi „czynnik jest prawdziwy” lub „czynnik jest fałszywy”. Biorąc pod uwagę dwa zdarzenia T 1 i T 2 , możesz zapytać „czy czynniki tych dwóch zdarzeń są równoważne, np. Czy oba są prawdziwe, czy oba fałszywe?” W logice boolowskiej jest to T 1 ⇔ T 2 . Definiuje to strukturę grupy Z 2 . Teraz 1 ,T T1 T2 T1⇔T2 Z2 i 1 , - 1 oba tworzą reprezentacje tej grupy, z operacjami grupy a ⇔ b = 1 - ( a1,0 1,−1 i odpowiednio ⇔ b = a b . Izomorfizm od pierwszej reprezentacji do drugiej jest wyrażony przez ϕ ( a ) = 2 ∗ a - 1 .a⇔b=1−(a+b) a⇔b=ab ϕ(a)=2∗a−1
źródło