„Zmienna manekina” kontra „zmienna wskaźnikowa” dla danych nominalnych / kategorialnych

15

„Zmienna manekina” i „zmienna wskaźnika” to często używane etykiety, aby opisać członkostwo w kategorii z kodowaniem 0/1; zazwyczaj 0: nie należy do kategorii, 1: należy do kategorii.

W dniu 26.11.2014 r. Szybkie wyszukiwanie na scholar.google.com (wraz z cytatami) ujawnia, że ​​„zmienna fikcyjna” jest używana w około 318 000 artykułów, a „zmienna wskaźnikowa” jest używana w około 112 000 artykułów. Termin „zmienna fikcyjna” ma również znaczenie w matematyce niestatystycznejzmienna związana ”, co prawdopodobnie przyczynia się do większego wykorzystania „zmiennej fikcyjnej” w artykułach indeksowanych.

Moje tematycznie powiązane pytania:

  1. Czy te warunki są zawsze synonimami (w ramach statystyk)?
  2. Czy którykolwiek z tych warunków nigdy zadowalająco zastosować do innych form kategoryczny kodowania (np efekt kodowania , Helmert kodowania, itp )?
  3. Jakie są przyczyny statystyczne lub dyscyplinarne, aby preferować jeden termin nad drugim?
Alexis
źródło
4
Zwykle używam „zmiennej wskaźnikowej” dla warunków binarnych, np. Płeć może być kodowana jak w maleprzypadku wartości 1lub 0. Jeśli istnieje zmienna kategorialna z więcej niż 2 kategoriami, która jest następnie rozszerzana na zmienne wskaźnikowe dla członkostwa na każdym poziomie, użyłbym „zmiennych zastępczych” do opisania tego zestawu zmiennych wskaźnikowych.
Gregor - przywróć Monikę
2
Myślę, że masz na myśli, że seks może być zakodowany jako 1 lub 0, płeć jest znacznie bardziej skomplikowaną konstrukcją. (pod tym względem seks może być również bardziej skomplikowany);)
Alexis,
2
punkt dobrze przemyślany, zredagowany na sex.
Gregor - przywróć Monikę
2
Zwykle nazywam taką zmienną wskaźnikową male, gdzie 1 oznacza prawda (w tym przypadku mężczyzna), a 0 oznacza fałsz (w tym przypadku kobieta). Jeśli użyję nazwy zmiennej sex, będę musiał sprawdzić, jak zakodowałem tę zmienną za każdym razem, gdy wracam do tego zestawu danych.
Maarten Buis
4
Słyszałem różne historie o tym, że „zmienna zmienna” jest szalona i niestety błędnie interpretowana przez nietechnicznych odbiorców jako sugerująca pogardę lub dyskredytację. Były na tyle zawstydzające i przekonujące, że zwróciły mnie przeciwko temu określeniu. „wskaźnik” jest dla mnie jasny i prosty.
Nick Cox

Odpowiedzi:

12

Powiedziałbym, że „zmienna fikcyjna” jest bardziej ogólnym sposobem na odniesienie do (jednej) zmiennych numerycznych, które reprezentują (razem reprezentują) predyktor jakościowy; dlatego termin ten ma również zastosowanie do tych używanych w kodowaniu Helmerta i efektach . Wynika to głównie z ogólnego użycia „manekina” w znaczeniu „stand-in”. „Zmienna wskaźnika” Odnoszę się do funkcji wskaźnika - więc mogą one wynosić tylko jeden lub zero, co oznacza posiadanie lub brak właściwości; dlatego termin ten ma zastosowanie tylko do tych używanych w kodowaniu na poziomie odniesienia . Oczywiście niektórzy ludzie używają „fałszywego kodowania” w znaczeniu „kodowania na poziomie odniesienia”; prawdopodobnie mają bardziej ograniczoną definicję „zmiennych fikcyjnych”, a przynajmniej tak powinno być.

† A jeśli nie nazywają te „manekiny”, co należy do nich zadzwonić?

‡ Tak więc np. Manekin jest zmienną wskaźnikową, gdy i- ta osoba u i jest mężczyzną (członek zbioru M ): x i = 1 M ( u i ) = { 1 w h e n u iM 0 w h e n u iMxjajaujaM.

xja=1M.(uja)={1whmin ujaM.0whmin ujaM.

gdzie jest funkcją wskaźnik przynależności M .1M.()M.

※ Lub, jak wskazał @gung, kodowanie oznacza poziom.

Scortchi - Przywróć Monikę
źródło
2
Huh ... czy możesz podać linki do niektórych zasobów, które to motywują? Z mojego doświadczenia wynika, że ​​„zmienna fikcyjna” przyzwyczaja się do kodowania 0/1. Nie jestem pewien, czy widziałem manekina używanego, jak sugerujesz, i wiem, że inni używają go w odwrotnym sensie. Na przykład Alkharusi, H. (2012) „Zmienne kategoryczne w analizie regresji: porównanie kodowania manekina i efektu” International Journal of Education 4 (2): 202–210.
Alexis
2
Nie powiedziałem, że „zmienna fikcyjna” nie jest używana do kodowania 0/1, tylko że może być używana w bardziej ogólnym sensie.
Scortchi - Przywróć Monikę
1
Rzeczywiście, sam cytowany przez ciebie artykuł mówi, że stosując kodowanie efektów, „zmienne zastępcze przyjmują wartości 1, 0 i -1”. (Oczywiście myślę, że powinni nazwać „kodowanie pozorowane” czymś innym, jeśli mają to powiedzieć.)
Scortchi - Przywróć Monikę
1
Rozumiem ... co do pytania z twojego błędnego indeksu górnego, zwykle nazywam je „zmiennymi kategorialnymi przy użyciu kodowania XXX”.
Alexis
2
Najlepiej jest, aby Knuth w arxiv.org/abs/math/9205211 Przypisuje ten pomysł KE Iversonowi. Krótko mówiąc, nie musimy wymyślać ani wywoływać funkcji wskaźnika, ale śledzimy w formalnej dyskusji, co robi dla nas nasze oprogramowanie.
Nick Cox
6

kk1) Gdy istnieje tylko jedna zmienna kategorialna, daje to wynik modelowy w sposób, który jest prosty i może być preferowany przez niektóre osoby. (Na przykład, w którym użycie tego schematu ułatwia porównania zainteresowań, zobacz moją odpowiedź tutaj: Dlaczego szacunkowe wartości z najlepszego liniowego bezstronnego predyktora (BLUP) różnią się od najlepszego liniowego bezobsługowego estymatora (NIEBIESKI)? )

gung - Przywróć Monikę
źródło