Dlaczego transformacji mocy lub logów nie uczy się wiele w uczeniu maszynowym?

24

Uczenie maszynowe (ML) w znacznym stopniu wykorzystuje techniki regresji liniowej i logistycznej. Powołuje się on także na technikach inżynierii (funkcja feature transform, kernelitp).

Dlaczego nic o variable transformation(np power transformation) wymienione w ML? (Na przykład, nigdy nie słyszę o włączeniu roota lub logu do funkcji, zwykle używają po prostu wielomianów lub RBF.) Podobnie, dlaczego eksperci ML nie dbają o transformacje cech dla zmiennej zależnej? (Na przykład nigdy nie słyszę o przeprowadzeniu transformacji logarytmu y; po prostu nie przekształcają y).

Edycje: Może pytanie nie jest zdecydowanie, moje prawdziwe pytanie brzmi: „czy transformacja mocy w zmienne nie jest ważna w ML?”

WeiChing Lin
źródło
4
Chciałbym wiedzieć, dlaczego zostało to odrzucone; to właściwie interesujące pytanie.
shadowtalker,
1
Myślę, że większość osób wybrałaby kurs regresji liniowej przed pierwszym kursem ML. Z pewnością podstawowy kurs LR zawierałby rozdział o tych rzeczach (transformacjach). Przy okazji, nie głosowałem za pytaniem.
user603

Odpowiedzi:

12

Książka Applied Predictive Modeling autorstwa Kuhna i Johnsona jest bardzo cenioną praktyczną książką do uczenia maszynowego z dużą sekcją na temat transformacji zmiennych, w tym Box-Cox. Autorzy twierdzą, że wiele algorytmów uczenia maszynowego działa lepiej, jeśli funkcje mają rozkład symetryczny i nieimodalny. Przekształcanie takich funkcji jest ważną częścią „inżynierii funkcji”.

Flądrarz
źródło
8

Z mojego punktu widzenia dość często interesuje mnie rozkład predykcyjny zmiennej odpowiedzi, a nie tylko średnia warunkowa, i w takim przypadku lepiej jest użyć prawdopodobieństwa, które bardziej poprawnie reprezentuje rozkład docelowy. Na przykład lubię używać kernelizowanych modeli liniowych zamiast (powiedzmy) obsługi regresji wektorowej, ponieważ mogę użyć prawdopodobieństwa Poissona, jeśli chcę. Ponieważ wielu ludzi uczących się maszynowo to Bayesianie, podejrzewam, że użycie innego prawdopodobieństwa będzie wydawało się bardziej eleganckie niż transformacja (wybór odpowiedniego prawdopodobieństwa jest zasadniczo pierwszym krokiem).

Dikran Torbacz
źródło
0

Oto moje późniejsze myśli.

Myślę, że dzieje się tak, ponieważ ML w dużej mierze zajmuje się klasyfikacją, a klasyfikacja nie wymaga transformacji y (y jest kategoryczne). ML zazwyczaj zajmują się dużymi zmiennymi niezależnymi (np. Tysiące w NLP), a regresja logistyczna nie wymaga normalności; Myślę, że dlatego nie używają transformacji mocy Box-Coxa ze względu na szybkość. (uwaga: nie znam transformacji mocy).

WeiChing Lin
źródło