Rozumiem logikę kodowania do analizy danych. Moje pytanie poniżej dotyczy użycia określonego kodu.
- Czy istnieje powód, dla którego płeć jest często kodowana jako 0 dla kobiety i 1 dla mężczyzny?
- Dlaczego to kodowanie jest uważane za „standardowe”?
- Porównaj to z Kobietą = 1 i Mężczyzną = 2. Czy występuje problem z tym kodowaniem?
data-transformation
binary-data
categorical-encoding
units
Adhesh Josh
źródło
źródło
Odpowiedzi:
Powody, dla których preferowane jest kodowanie zerowych zmiennych binarnych:
Różne punkty dotyczące kodowania zmiennych binarnych:
y = a + b * Male
Zamiasty = a + b * Gender
.źródło
Ułatwia interpretację wyników. Załóżmy, że masz jakieś dane dotyczące wysokości:
i wziąłeś regresję formy
Height = a + b * Gender + Residual
.Za pomocą zmiennej manekina 0,1 uzyskasz szacunkową wartość
a
170, która jest średnią wysokością kobiet, ab
10, która stanowi różnicę między średnimi wysokościami mężczyzn i kobiet.Dzięki zmiennej manekina 1,2 uzyskasz oszacowanie
a
na 160, które jest trudniejsze do interpretacji.źródło
Założyłem, że dzieje się tak, ponieważ typ pola często używany do przechowywania płci jest polem bitowym, a pola bitowe w SQL mogą mieć tylko wartości 0 lub 1. Gdy zrzucisz dane, pojawi się jako 0 lub 1, i dlatego otrzymujesz te konkretne wartości.
Jeśli chcesz użyć 1 i 2, musisz użyć większego typu pola, co zająłoby więcej miejsca, a tym samym sprawiłoby, że cała baza danych była nieco większa.
źródło
Miałem profesora, który sugeruje, że kodujemy „biologicznie”: kobiety mają 0, a mężczyźni 1 - aby odzwierciedlić anatomię. Nie sądzę, żeby była to najbardziej wrażliwa rzecz na PC, którą można powiedzieć w klasie, ale zdecydowanie łatwa do zapamiętania, patrząc na zestaw danych 5 lat później.
źródło
Dotychczas opublikowano wiele dobrych powodów, ale powinno to być również zwrotne. Dlaczego zaczniesz liczyć na 1? To sprawia, że wiele algorytmów numerycznych jest znacznie bardziej skomplikowanych. Etykietowanie zaczyna się od 0, a nie 1. Jeśli nie jesteś jeszcze do tego przekonany, mam dobry przykład, dlaczego jest to ważne na http://madhadron.com/?p=69
Jeśli chodzi o to, dlaczego kobiety mają 0 lat, a mężczyźni 1, pamiętajmy, że przez większą część swojej historii statystyk był prawdopodobnie prostym mężczyzną. Zapytany o nazwę płci, pierwszą, która przyszła mi do głowy, była „kobieta”. Wszystko później było prawdopodobnie historycznym wypadkiem i racjonalizacją.
źródło
W ISO / IEC 5218 standardowe aktualizacje to pojęcie z poniższej mapie:
Jest to szczególnie przydatne w językach, w których 0 wymusza fałsz, np. W JavaScript:
źródło
To, co widzę osobiście, to falliczne 0, zazwyczaj reprezentuje kobietę, ponieważ jest to kształt macicy, i uważane jest za żeńskie ... w prawie wszystkich naukach (tj. W biologii / genetyce), koła lub zera reprezentują kobiety. Gdzie bardziej proste kształty krawędzi (trójkąty, kwadraty lub 1s) zwykle reprezentują płeć męską. To proste zrozumienie ułatwiło mi zawsze zapamiętanie, które jest dla mnie najlepsze.
Chociaż na koniec dnia, jeśli to Ty sam kodujesz i analizujesz dane, możesz wstawić dowolne liczby, na ogół tak długo, jak istnieje klucz określający, dla której zmiennej zastępczej użyłeś, dla której to nie ma znaczenia.
źródło