Robiłem problem z klasyfikacją i przeczytałem kod wielu osób i samouczki. Jedną rzeczą, jaką zauważyłem jest to, że wiele osób podejmuje np.log
lub log
ciągłej zmiennej jak loan_amount
i applicant_income
etc.
Chcę tylko zrozumieć przyczynę tego. Czy pomaga to poprawić dokładność prognozowania naszego modelu? Czy to jest obowiązkowe? lub Czy kryje się za tym jakaś logika?
Proszę podać wyjaśnienie, jeśli to możliwe. Dziękuję Ci.
źródło
Głównie z powodu wypaczonej dystrybucji. Logarytm w naturalny sposób zmniejsza zakres dynamiczny zmiennej, więc różnice zostają zachowane, podczas gdy skala nie jest aż tak dramatycznie wypaczona. Wyobraź sobie, że niektórzy ludzie otrzymali pożyczkę w wysokości 100 000 000, a niektórzy dostali 10000, a niektórzy 0. Każde skalowanie funkcji prawdopodobnie spowoduje, że 0 i 10000 będą tak blisko siebie, ponieważ i tak większa liczba przesunie granicę. Logarytm rozwiązuje problem.
źródło
źródło
Kolejny powód, dla którego transformacje logarytmiczne są użyteczne, pojawia się w przypadku danych współczynników, z tego powodu
log(A/B) = -log(B/A)
. Jeśli kreślisz rozkład współczynników na skali surowej, twoje punkty mieszczą się w zakresie(0, Inf)
. Wszelkie proporcje mniejsze niż 1 zostaną ściśnięte na małym obszarze wykresu, a ponadto wykres będzie wyglądał zupełnie inaczej, jeśli odwrócisz stosunek do(B/A)
zamiast(A/B)
. Jeśli zrobisz to w skali logarytmicznej, zakres jest teraz(-Inf, +Inf)
, co oznacza, że stosunki mniejsze niż 1 i większe niż 1 są bardziej równomiernie rozłożone. Jeśli zdecydujesz się przerzucić stosunek, po prostu odwróć wykres wokół 0, w przeciwnym razie wygląda dokładnie tak samo. W skali logów tak naprawdę nie ma znaczenia, czy wyświetlasz stosunek as1/10 or 10/1
, co jest przydatne, gdy nie ma oczywistego wyboru, który powinien być.źródło
Powinieneś spojrzeć na rozkład logarytmiczny .
Ludzie mogą korzystać z dzienników, ponieważ uważają, że kompresuje skalę lub coś takiego, ale zasadą korzystania z dzienników jest to, że pracujesz z danymi o rozkładzie logarytmicznym nienormalnym. Będą to na przykład wynagrodzenia, ceny mieszkań itp., Gdzie wszystkie wartości są dodatnie, a większość z nich jest stosunkowo skromna, ale niektóre są bardzo duże.
Jeśli możesz wziąć dziennik danych i staje się on normalny, możesz skorzystać z wielu funkcji rozkładu normalnego, takich jak dobrze zdefiniowana średnia, odchylenie standardowe (a tym samym z-score), symetria itp.
Podobnie dodanie dzienników jest takie samo, jak pomnożenie wartości niezalogowanych. Co oznacza, że zmieniłeś rozkład, w którym błędy są addytywne, na taki, w którym są multiplikatywne (tzn. Procentowe). Ponieważ techniki takie jak regresja OLS wymagają normalnego rozkładu błędów, praca z logami rozszerza ich zastosowanie z procesów addytywnych na multiplikatywne.
źródło
Powiedziałbym, że głównym powodem nie jest dystrybucja, ale raczej związek nieliniowy. Dzienniki często wychwytują nasycające relacje ...
źródło