Uczenie maszynowe (ML) w znacznym stopniu wykorzystuje techniki regresji liniowej i logistycznej. Powołuje się on także na technikach inżynierii (funkcja feature transform
, kernel
itp).
Dlaczego nic o variable transformation
(np power transformation
) wymienione w ML? (Na przykład, nigdy nie słyszę o włączeniu roota lub logu do funkcji, zwykle używają po prostu wielomianów lub RBF.) Podobnie, dlaczego eksperci ML nie dbają o transformacje cech dla zmiennej zależnej? (Na przykład nigdy nie słyszę o przeprowadzeniu transformacji logarytmu y; po prostu nie przekształcają y).
Edycje: Może pytanie nie jest zdecydowanie, moje prawdziwe pytanie brzmi: „czy transformacja mocy w zmienne nie jest ważna w ML?”
regression
machine-learning
data-transformation
WeiChing Lin
źródło
źródło
Odpowiedzi:
Książka Applied Predictive Modeling autorstwa Kuhna i Johnsona jest bardzo cenioną praktyczną książką do uczenia maszynowego z dużą sekcją na temat transformacji zmiennych, w tym Box-Cox. Autorzy twierdzą, że wiele algorytmów uczenia maszynowego działa lepiej, jeśli funkcje mają rozkład symetryczny i nieimodalny. Przekształcanie takich funkcji jest ważną częścią „inżynierii funkcji”.
źródło
Z mojego punktu widzenia dość często interesuje mnie rozkład predykcyjny zmiennej odpowiedzi, a nie tylko średnia warunkowa, i w takim przypadku lepiej jest użyć prawdopodobieństwa, które bardziej poprawnie reprezentuje rozkład docelowy. Na przykład lubię używać kernelizowanych modeli liniowych zamiast (powiedzmy) obsługi regresji wektorowej, ponieważ mogę użyć prawdopodobieństwa Poissona, jeśli chcę. Ponieważ wielu ludzi uczących się maszynowo to Bayesianie, podejrzewam, że użycie innego prawdopodobieństwa będzie wydawało się bardziej eleganckie niż transformacja (wybór odpowiedniego prawdopodobieństwa jest zasadniczo pierwszym krokiem).
źródło
Oto moje późniejsze myśli.
Myślę, że dzieje się tak, ponieważ ML w dużej mierze zajmuje się klasyfikacją, a klasyfikacja nie wymaga transformacji y (y jest kategoryczne). ML zazwyczaj zajmują się dużymi zmiennymi niezależnymi (np. Tysiące w NLP), a regresja logistyczna nie wymaga normalności; Myślę, że dlatego nie używają transformacji mocy Box-Coxa ze względu na szybkość. (uwaga: nie znam transformacji mocy).
źródło