Jakie są różne rodzaje kodowania dostępne dla zmiennych kategorialnych (w R) i kiedy ich użyjesz?

14

Jeśli dopasujesz model liniowy lub mieszany, dostępne są różne typy kodowania, aby przekształcić zmienną kategorialną lub nominalną w szereg zmiennych, dla których szacowane są parametry, takie jak atrapa warunkowa (domyślnie R) i kodowanie efektów.

Słyszałem, że kodowanie efektów (czasami nazywane kodowaniem dewiacyjnym lub kontrastowym) jest preferowane, gdy masz interakcje, ale jakie są możliwe kontrasty i kiedy użyjesz jakiego rodzaju kontrastu?

Kontekstem jest mieszane modelowanie przy użyciu R lme4, ale myślę, że szersze odpowiedzi są w porządku. Przepraszam, jeśli przeoczyłem podobne pytanie.

EDYCJA: Dwa pomocne linki to: kodowanie efektów i objaśnianie kodowania obojętnego .

Henrik
źródło
jeśli masz Modern Applied Statistics z S-Plus, ma świetną sekcję w rozdziale szóstym na ten właśnie temat
richiemorrisroe
4
Nie sądzę, znajdziesz pełną odpowiedź na swoje pytanie, ale istnieje wiele dobrych informacji na temat różnych typów kodowania tutaj .
gung - Przywróć Monikę
@gung Strona wygląda naprawdę interesująco. Wydaje się jednak, że nie obejmuje kodowania kontrastowego (lub czy istnieje inna nazwa).
Henrik
Nie jestem pewny; Zastanawiam się, czy doszło do nieporozumienia. Tytuł tej strony to „kodowanie kontrastowe”.
gung - Przywróć Monikę
1
Nie do końca rozumiem, jakie pozostaje pytanie. Jeśli chcesz listę różnych rodzajów kodowania, masz to. Jaki jest teraz główny cel twojego pytania?
gung - Przywróć Monikę

Odpowiedzi:

4

Inni mogą mnie oświecić, jeśli się mylę, ale oto idzie…

Jaki jest wpływ na poziom w porównaniu ze średnią z poprzednich poziomów? tzn. jesteś zainteresowany zlokalizowaniem progu efektu

  • Używaj kontrastów Helmerta. Uważam to za skumulowane porównania. Użyłem tego, gdy byłem zainteresowany określeniem limitu dawka-odpowiedź leku na ekspozycję. Porównanie do wielu poziomów jednocześnie oznacza, że ​​mniej informacji jest wyrzucanych. Uważam to za skumulowane porównania.

Jaki jest wpływ tego poziomu na poziom podstawowy? tzn. jesteś zainteresowany jedną bazową grupą porównawczą.

  • Użyj fałszywego zmiennego kodowania (kontrasty leczenia). Myślę o tym jako o porównaniach podstawowych. Użyłem tego, gdy zwykle istnieje jedna grupa / poziom uznany za ważny przez inne badania, a moje badanie pokazuje, że powiązania istnieją również po przekroczeniu tego progu.

Jaki jest wpływ dwóch sąsiednich poziomów zmiennej?

  • Używaj różnicowania do przodu / do tyłu. Myślę o tym jako o kolejnych porównaniach w krótkich odstępach czasu. Użyłem tego przy porównywaniu efektów dla różnych poziomów pozycji społeczno-ekonomicznej, gdy każda grupa różni się pod względem składu i nie jest bardziej interesująca niż jakakolwiek inna.
Gavin
źródło