Mam zestaw danych z zestawem funkcji. Niektóre z nich są binarne aktywne lub zwolnione, nieaktywne lub nieaktywne), a reszta ma wartość rzeczywistą, np . .
Chcę nakarmić te dane do algorytmu uczenia maszynowego, więc -score wszystkie wartościach rzeczywistych możliwości. Dostaję je w przybliżeniu między zakresem a . Teraz wartości binarne są również -scored zatem zera stać a te stają .
Czy taka standaryzacja zmiennych binarnych ma sens?
Zmienna binarna o wartościach 0, 1 może (zwykle) być skalowana do (wartość - średnia) / SD, co jest prawdopodobnie twoim wynikiem-Z.
Najbardziej oczywistym ograniczeniem jest to, że jeśli zdarzy ci się dostać wszystkie zera lub wszystkie z nich, to zaślepienie SD na ślepo oznaczałoby, że wynik Z jest nieokreślony. Istnieją przypadki, w których przypisuje się również zero, o ile wartość - średnia wynosi identycznie zero. Ale wiele rzeczy statystycznych nie ma większego sensu, jeśli zmienna jest naprawdę stałą. Mówiąc bardziej ogólnie, jeśli SD jest mała, istnieje większe ryzyko, że wyniki będą niestabilne i / lub słabo określone.
Problem z udzieleniem lepszej odpowiedzi na twoje pytanie polega właśnie na tym, jaki „algorytm uczenia maszynowego” rozważasz. Brzmi tak, jakby to był algorytm, który łączy dane dla kilku zmiennych, dlatego zwykle sensowne jest dostarczanie ich w podobnych skalach.
(PÓŹNIEJ) Ponieważ oryginalny plakat dodaje komentarze jeden po drugim, ich pytanie zmienia się. Nadal uważam, że (wartość - średnia) / SD ma sens (tzn. Nie jest nonsensowny) dla zmiennych binarnych, o ile SD jest dodatnie. Jednak regresja logistyczna została później nazwana aplikacją i do tego nie ma teoretycznego ani praktycznego zysku (a nawet pewnej utraty prostoty) do niczego innego niż podawanie zmiennych binarnych jako 0, 1. Twoje oprogramowanie powinno być w stanie dobrze sobie poradzić z że; jeśli nie, porzuć to oprogramowanie na rzecz programu, który potrafi. Jeśli chodzi o pytanie tytułowe: można, tak; powinienem nie
źródło
Dobry przykład, w którym użyteczne może być nieco inne ujednolicenie, podano w sekcji 4.2 Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Dzieje się tak głównie wtedy, gdy interesująca jest interpretacja współczynników i być może nie ma wielu predyktorów.
Tam standaryzują zmienną binarną (z równą proporcją 0 i 1) o zamiast normalnegoσ. Następnie te znormalizowane współczynniki przyjmują wartości±0,5,a następnie współczynniki odzwierciedlają bezpośrednio porównania międzyx=0ix=1. Jeślizamiast tegoskalowany jest przezσ,współczynnik odpowiadałby połowie różnicy między możliwymi wartościamix.
źródło
Co chcesz znormalizować, binarną zmienną losową lub proporcję?
źródło
W regresji logistycznej zmienne binarne mogą być standaryzowane do łączenia ich z ciągłymi zmiennymi, gdy chcesz nadać wszystkim z nich nieinformacyjny przeor, taki jak N ~ (0,5) lub Cauchy ~ (0,5). Zaleca się, aby standaryzacja była następująca: Weź całkowitą liczbę i podaj
1 = proporcja 1
0 = 1 - proporcja 1.
-----
Edycja: Właściwie wcale nie miałem racji, to nie jest standaryzacja, ale przesunięcie, które ma być wyśrodkowane na 0 i różnić się o 1 w dolnym i górnym stanie, powiedzmy, że populacja wynosi 30% w firmie A i 70% w innych, możemy zdefiniować wyśrodkowaną zmienną „Firma A”, aby przyjmować wartości -0,3 i 0,7.
źródło