Czy powinieneś kiedykolwiek ustandaryzować zmienne binarne?

25

Mam zestaw danych z zestawem funkcji. Niektóre z nich są binarne aktywne lub zwolnione, nieaktywne lub nieaktywne), a reszta ma wartość rzeczywistą, np . .(1=0=4564.342

Chcę nakarmić te dane do algorytmu uczenia maszynowego, więc z -score wszystkie wartościach rzeczywistych możliwości. Dostaję je w przybliżeniu między zakresem 3 a 2 . Teraz wartości binarne są również z -scored zatem zera stać 0.222 a te stają 0.5555 .

Czy taka standaryzacja zmiennych binarnych ma sens?

siamii
źródło

Odpowiedzi:

14

Standaryzacja zmiennych binarnych nie ma sensu. Wartości są dowolne; same w sobie nic nie znaczą. Może istnieć uzasadnienie wyboru niektórych wartości, takich jak 0 i 1, w odniesieniu do liczbowych problemów ze stabilnością, ale to wszystko.

gung - Przywróć Monikę
źródło
co jeśli byłyby między 0-100. Jak powiedziałem, oznaczają one takie rzeczy jak „rozpoznano twarz” i „nierozpoznana twarz”, a 0-100 oznacza poziom ufności. Czy sensowne jest, aby zdobyć z-score?
siamii
Twój przykład 0-100 brzmi jak porządek porządkowy. Jest trochę szczegółów na temat tego, jak najlepiej poradzić sobie w tej sytuacji i zostało to dość sporo omówione w CV. Wyszukaj znacznik porządkowy, aby dowiedzieć się więcej.
gung - Przywróć Monikę
problem polega na tym, że tylko niektóre zmienne mają wartość 0-100. Inne to na przykład -400 - +400
siamii
W czym tkwi problem? Czy to problem ze stabilnością liczbową?
gung - Przywróć Monikę
może sugerujesz, że nie oceniam Z-score?
siamii
14

Zmienna binarna o wartościach 0, 1 może (zwykle) być skalowana do (wartość - średnia) / SD, co jest prawdopodobnie twoim wynikiem-Z.

Najbardziej oczywistym ograniczeniem jest to, że jeśli zdarzy ci się dostać wszystkie zera lub wszystkie z nich, to zaślepienie SD na ślepo oznaczałoby, że wynik Z jest nieokreślony. Istnieją przypadki, w których przypisuje się również zero, o ile wartość - średnia wynosi identycznie zero. Ale wiele rzeczy statystycznych nie ma większego sensu, jeśli zmienna jest naprawdę stałą. Mówiąc bardziej ogólnie, jeśli SD jest mała, istnieje większe ryzyko, że wyniki będą niestabilne i / lub słabo określone.

Problem z udzieleniem lepszej odpowiedzi na twoje pytanie polega właśnie na tym, jaki „algorytm uczenia maszynowego” rozważasz. Brzmi tak, jakby to był algorytm, który łączy dane dla kilku zmiennych, dlatego zwykle sensowne jest dostarczanie ich w podobnych skalach.

(PÓŹNIEJ) Ponieważ oryginalny plakat dodaje komentarze jeden po drugim, ich pytanie zmienia się. Nadal uważam, że (wartość - średnia) / SD ma sens (tzn. Nie jest nonsensowny) dla zmiennych binarnych, o ile SD jest dodatnie. Jednak regresja logistyczna została później nazwana aplikacją i do tego nie ma teoretycznego ani praktycznego zysku (a nawet pewnej utraty prostoty) do niczego innego niż podawanie zmiennych binarnych jako 0, 1. Twoje oprogramowanie powinno być w stanie dobrze sobie poradzić z że; jeśli nie, porzuć to oprogramowanie na rzecz programu, który potrafi. Jeśli chodzi o pytanie tytułowe: można, tak; powinienem nie

Nick Cox
źródło
3
Krótka odpowiedź jest taka, że ​​nie oznacza to nic innego i nie widzę powodu, dla którego zmiana 0, 1 na z-score pomoże cokolwiek w tej sytuacji. Aby się przekonać, wypróbuj obie strony i przekonaj się, że nic ważnego się nie zmieni.
Nick Cox
3
Przeciwnie, myślę, że większość ludzi użyłaby tutaj 0, 1.
Nick Cox
1
Podczas regresji logistycznej oprogramowanie prawie na pewno przeprowadzi standaryzację pod maską (aby uzyskać lepsze właściwości numeryczne). Dlatego dobrym pomysłem jest zachowanie wyrażenia binarnego w znaczący sposób. Standaryzacja nie brzmi ani dobrze, ani użytecznie.
whuber
1
Każda metoda uczenia maszynowego, która wymaga „standaryzacji” predyktorów binarnych, jest podejrzana.
Frank Harrell
2
Ponieważ jest to Twoja własna implementacja, nikt inny nie ma podstaw do udzielenia obiektywnej odpowiedzi! Musisz sprawdzić, jak twoje oprogramowanie traktuje dane, aby zdecydować, czy wcześniejsza standaryzacja ma sens.
whuber
3

Dobry przykład, w którym użyteczne może być nieco inne ujednolicenie, podano w sekcji 4.2 Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Dzieje się tak głównie wtedy, gdy interesująca jest interpretacja współczynników i być może nie ma wielu predyktorów.

Tam standaryzują zmienną binarną (z równą proporcją 0 i 1) o zamiast normalnegoσ. Następnie te znormalizowane współczynniki przyjmują wartości±0,5,a następnie współczynniki odzwierciedlają bezpośrednio porównania międzyx=0ix=1. Jeślizamiast tegoskalowany jest przezσ,współczynnik odpowiadałby połowie różnicy między możliwymi wartościamix.

xμx2σx,
σ±0.5x=0x=1σx
Gosset's Student
źródło
Proszę wyjaśnić „z równą proporcją 0 i 1”, ponieważ zmienne binarne, które widzę, rzadko są takie.
Nick Cox,
Nie sądzę, że proporcja rzeczywiście coś zmieni, po prostu używają jej, aby uczynić przykład czystszym.
Gosset's Student
1

Co chcesz znormalizować, binarną zmienną losową lub proporcję?

Y:SRY{0,1}

X[0,1]xR+

QAChip
źródło
0

W regresji logistycznej zmienne binarne mogą być standaryzowane do łączenia ich z ciągłymi zmiennymi, gdy chcesz nadać wszystkim z nich nieinformacyjny przeor, taki jak N ~ (0,5) lub Cauchy ~ (0,5). Zaleca się, aby standaryzacja była następująca: Weź całkowitą liczbę i podaj

1 = proporcja 1

0 = 1 - proporcja 1.

-----

Edycja: Właściwie wcale nie miałem racji, to nie jest standaryzacja, ale przesunięcie, które ma być wyśrodkowane na 0 i różnić się o 1 w dolnym i górnym stanie, powiedzmy, że populacja wynosi 30% w firmie A i 70% w innych, możemy zdefiniować wyśrodkowaną zmienną „Firma A”, aby przyjmować wartości -0,3 i 0,7.

Carlos ST
źródło
Can; t ma to sens jako standaryzacja.
Michael R. Chernick