Jeśli chcę modelu możliwego do interpretacji, czy istnieją metody inne niż regresja liniowa?

18

Spotkałem niektórych statystyk, którzy nigdy nie używają modeli innych niż regresja liniowa do przewidywania, ponieważ uważają, że „modele ML”, takie jak losowy wzrost lasu lub zwiększenie gradientu, są trudne do wyjaśnienia lub „niemożliwe do interpretacji”.

W regresji liniowej, biorąc pod uwagę, że zestaw założeń jest weryfikowany (normalność błędów, homoskedastyczność, brak wielokoliniowości), testy t zapewniają sposób przetestowania znaczenia zmiennych, testy, które według mojej wiedzy nie są dostępne w losowe lasy lub modele zwiększające gradient.

Dlatego mam pytanie, czy chcę modelować zmienną zależną za pomocą zestawu zmiennych niezależnych, czy ze względu na interpretację powinienem zawsze używać regresji liniowej?

Zwycięzca
źródło
6
Zależy od tego, co nadal uważasz za liniowe. Uogólnione modele liniowe i uogólnione modele addytywne nadal działają na podstawie oszacowanego komponentu liniowego, ale mogą modelować wiele różnych zależności.
Frans Rodenburg,
2
Zależy również od tego, co rozumiesz przez interpretowalny. Różne modele „zaglądania do czarnej skrzynki” zostały zaproponowane dla modeli uczenia maszynowego, ale mogą, ale nie muszą być odpowiednie dla twoich celów.
user20160
5
Nie bardzo rozumiem, co statystyki wnioskowania i testy t mają wspólnego z interpretowalnością, która IMO dotyczy głównie oszacowań współczynników.
Stephan Kolassa
3
@StephanKolassa „Interretowalność” może również dotyczyć formy funkcjonalnej . Na przykład oszacowania współczynników uzyskane przez algorytmiczne ułamkowe dopasowanie krzywej wielomianowej w modelach regresji (czy regresja liniowa, GLM lub coś innego), przy jednoczesnym uzyskaniu dobrego dopasowania , są prawie na pewno antyintuicyjne: czy możesz przypomnieć sobie szereg wytwarzanych kształtów od modeli postaci , a zateminterpretowaćzwiązek między y i x wynikający z twoich oszacowań współczynników? yja=β0+β1xja-3)/5+β2)xja1/3)+β3)xja3)+εjayx
Alexis,
2
@ UżytkownikX To, co opisujesz, to wciąż regresja liniowa (tzn. Jest liniowa w parametrach). Kontrast z Y i = β 0 + β 1 x I + x β 2 I + ε I : pierwsza jest model regresji liniowej, natomiast tego ostatniego nie można oszacować za pomocą regresji liniowej. yja=β0+β1xja+β2)xja2)+εjayja=β0+β1xja+xjaβ2)+εja
Alexis,

Odpowiedzi:

29

Trudno mi uwierzyć, że słyszeliście ludzi, którzy to mówili, bo byłoby to głupie. To tak, jakby powiedzieć, że używasz tylko młotka (w tym wiercenia otworów i zmiany żarówek), ponieważ jest prosty w użyciu i daje przewidywalne wyniki.

Po drugie, regresja liniowa nie zawsze jest „możliwa do interpretacji”. Jeśli masz model regresji liniowej z wieloma terminami wielomianowymi lub tylko wieloma funkcjami, trudno byłoby je zinterpretować. Powiedzmy na przykład, że użyłeś surowych wartości każdego z 784 pikseli z MNIST † jako funkcji. Czy wiedza o tym, że piksel 237 ma wagę równą -2311.67, powiedziałaby ci coś o modelu? W przypadku danych obrazu znacznie łatwiej byłoby zrozumieć mapy aktywacyjne splotowej sieci neuronowej.

Wreszcie istnieją modele, które są jednakowo interpretowalne, np. Regresja logistyczna, drzewa decyzyjne, naiwny algorytm Bayesa i wiele innych.

† - Jak zauważył @Ingolifs w komentarzu i jak omówiono w tym wątku , MNIST może nie być najlepszym przykładem, ponieważ jest to bardzo prosty zestaw danych. W przypadku większości realistycznych zestawów danych obrazu regresja logistyczna nie działałaby, a spojrzenie na wagi nie dałoby żadnych prostych odpowiedzi. Jeśli jednak przyjrzysz się bliżej wagom w połączonym wątku, ich interpretacja również nie jest prosta, na przykład wagi do przewidywania „5” lub „9” nie wykazują żadnego oczywistego wzorca (patrz zdjęcie poniżej, skopiowane z drugiego wątku ).

Tim
źródło
2
Myślę, że ta odpowiedź jest dobra, pokazując, jak jasno można wyjaśnić regresję logistyczną na MNIST.
Ingolifs,
1
@Ingolifs zgadza się, ale jest to mapa aktywacyjna, możesz zrobić to samo dla sieci neuronowej.
Tim
Bez względu na to, jak się nazywa, daje jasne wyjaśnienie, z czego korzysta regresja logistyczna, aby podejmować decyzje w sposób, którego tak naprawdę nie można uzyskać w przypadku map aktywacyjnych sieci neuronowych.
Ingolifs,
1
@Ingolifs MNIST może nie jest najlepszym przykładem, ponieważ jest bardzo prosty, ale chodzi o to, że użyłbyś tej samej metody dla sieci neuronowej.
Tim
7

Chciałbym się zgodzić z odpowiedziami Tima i mkt - modele ML niekoniecznie są niemożliwe do interpretacji. Chciałbym skierować cię do Descriptive mAchine Learning EXplanations, pakietu DALEX R, który jest poświęcony tworzeniu modeli ML.

czytnik babelproofreader
źródło
1
pakiet DALEX jest rzeczywiście bardzo interesujący, czy wiesz, czy istnieje coś podobnego dla Pythona?
Victor
@Victor Nie znam wersji DALEX Pythona, ale możesz spróbować wywołać R z Pythona, używając na przykład rpy2.readthedocs.io/en/version_2.8.x/introduction.html .
babelproofreader
6

Nie, to jest niepotrzebnie restrykcyjne. Istnieje szeroki zakres modeli możliwych do interpretacji, w tym nie tylko (jak mówi Frans Rodenburg) modele liniowe, uogólnione modele liniowe i uogólnione modele addytywne, ale także metody uczenia maszynowego stosowane do regresji. Uwzględniam losowe lasy, maszyny o podwyższonym gradiencie, sieci neuronowe i wiele innych. To, że nie uzyskuje się współczynników z modeli uczenia maszynowego podobnych do tych z regresji liniowych, nie oznacza, że ​​ich działania nie można zrozumieć. To zajmuje tylko trochę więcej pracy.

Aby zrozumieć dlaczego, zalecam przeczytanie tego pytania: Pozyskiwanie wiedzy z przypadkowego lasu . Pokazuje to, jak możesz podejść do interpretacji niemal każdego modelu uczenia maszynowego.

mkt - Przywróć Monikę
źródło