Moje pytanie brzmi: czy musimy dopasować zestaw danych, aby upewnić się, że wszystkie zmienne mają tę samą skalę, między [0,1], przed dopasowaniem regresji logistycznej. Formuła jest następująca:
Mój zestaw danych ma 2 zmienne, opisują to samo dla dwóch kanałów, ale głośność jest inna. Powiedzmy, że jest to liczba odwiedzin klientów w dwóch sklepach, tu chodzi o to, czy klient dokonuje zakupów. Ponieważ klient może odwiedzić oba sklepy lub dwa razy pierwszy sklep, raz drugi sklep, zanim dokona zakupu. ale łączna liczba wizyt klientów w pierwszym sklepie jest 10 razy większa niż w drugim sklepie. Kiedy dopasuję tę regresję logistyczną, bez standaryzacji coef(store1)=37, coef(store2)=13
; jeśli ujednolicę dane, to coef(store1)=133, coef(store2)=11
. Coś takiego. Które podejście ma większy sens?
Co się stanie, jeśli dopasuję model drzewa decyzyjnego? Wiem, że modele struktury drzew nie potrzebują standaryzacji, ponieważ sam model jakoś to dostosuje. Ale sprawdzanie z wami wszystkimi.
źródło
C
zmiany współczynnika regularyzacji . Musisz więc wybraćC
po ujednoliceniu danych.Odpowiedzi:
Standaryzacja nie jest wymagana do regresji logistycznej. Głównym celem standaryzacji funkcji jest pomoc w zbieżności techniki stosowanej do optymalizacji. Na przykład, jeśli użyjesz Newtona-Raphsona, aby zmaksymalizować prawdopodobieństwo, ujednolicenie funkcji przyspieszy konwergencję. W przeciwnym razie możesz uruchomić swoją regresję logistyczną bez żadnego standaryzacji działania funkcji.
źródło
@Aymen ma rację, nie musisz normalizować swoich danych w celu regresji logistycznej. (Aby uzyskać bardziej ogólne informacje, pomocne może być przeczytanie tego wątku CV: Kiedy należy wyśrodkować dane i kiedy należy przeprowadzić standaryzację?; Można również zauważyć, że transformacja jest częściej nazywana „normalizacją”, zobacz: Jak zweryfikować dystrybucja jest znormalizowana? ) Pozwolę sobie poruszyć kilka innych kwestii w pytaniu.
Warto tutaj zauważyć, że w regresji logistycznej współczynniki wskazują wpływ zmiany o jedną jednostkę zmiennej predykcyjnej na logarytm „sukcesu”. Efektem transformacji zmiennej (na przykład poprzez standaryzację lub normalizację) jest zmiana tego, co nazywamy „jednostką” w kontekście naszego modelu. Twoje nieprzetworzone dane różniły się dla pewnej liczby jednostek w oryginalnej metryki. Po znormalizowaniu dane wahały się od do . Oznacza to, że zmiana jednej jednostki oznacza teraz przejście z obserwacji o najniższej wartości do obserwacji o najwyższej wartości. Wielkość wzrostu prawdopodobieństwa sukcesu dziennika nie zmieniła się. Na podstawie tych faktów podejrzewam, że twoja pierwsza zmienna ( ) obejmowałax 0 1 133/37≈3.6 oryginalne jednostki, a twoja druga zmienna ( 11/13≈0.85
store1
store2
) obejmowała tylko oryginalnych jednostek.źródło
Jeśli używasz regresji logistycznej z LASSO lub regresji kalenicowej (jak robi to klasa Weka Logistic ), powinieneś. Jak zauważają Hastie, Tibshirani i Friedman (strona 82 w pdf lub na stronie 63 książki):
Również ten wątek działa.
źródło