Jakie, jeśli w ogóle, algorytmy uczenia maszynowego są akceptowane jako dobry kompromis między wyjaśnialnością a prognozowaniem?

9

Teksty uczenia maszynowego opisujące algorytmy, takie jak maszyny zwiększające gradient lub sieci neuronowe, często komentują, że modele te są dobre w przewidywaniu, ale dzieje się to kosztem utraty wyjaśnialności lub interpretacji. I odwrotnie, drzewa z pojedynczą decyzją i klasyczne modele regresji są oznaczone jako dobre w wyjaśnieniu, ale dają (względnie) słabą dokładność przewidywania w porównaniu z bardziej wyrafinowanymi modelami, takimi jak losowe lasy lub SVM. Czy są powszechnie akceptowane modele uczenia maszynowego jako dobry kompromis między nimi? Czy istnieje literatura wymieniająca cechy algorytmów, które pozwalają na ich wyjaśnienie? (To pytanie zostało wcześniej zadane podczas weryfikacji krzyżowej)

Robert de Graaf
źródło

Odpowiedzi:

3

Czy istnieje literatura wymieniająca cechy algorytmów, które pozwalają na ich wyjaśnienie?

Jedyną znaną mi literaturą jest najnowsza praca Ribero, Singha i Guestrina. Najpierw określają wyjaśnialność pojedynczej prognozy:

Przez „wyjaśnienie prognozy” rozumiemy prezentację tekstowych lub wizualnych artefaktów, które zapewniają jakościowe zrozumienie związku między komponentami instancji (np. Słowa w tekście, łatki na obrazie) a prognozą modelu.

Autorzy dalej wyjaśniają, co to oznacza dla bardziej konkretnych przykładów, a następnie wykorzystują to pojęcie do zdefiniowania wyjaśnialności modelu. Ich celem jest próba sztucznego dodania wyjaśnienia sztucznie do nieprzezroczystych modeli, zamiast porównywania wyjaśnienia istniejących metod. Artykuł może być pomocny, ponieważ próbuje wprowadzić bardziej precyzyjną terminologię wokół pojęcia „wyjaśnialności”.

Czy są powszechnie akceptowane modele uczenia maszynowego jako dobry kompromis między nimi?

Zgadzam się z @Winter, że siatka elastyczna dla regresji (nie tylko logistycznej) może być postrzegana jako przykład dobrego kompromisu między dokładnością prognozowania a wyjaśnialnością.

W przypadku innego rodzaju dziedziny aplikacji (szeregów czasowych) inna klasa metod zapewnia również dobry kompromis: Bayesian Structural Time Series Modeling. Dziedziczy on wyjaśnialność z klasycznego modelowania szeregów czasowych i pewną elastyczność z podejścia bayesowskiego. Podobnie jak w przypadku regresji logistycznej, wyjaśnienia pomagają równania regresji zastosowane do modelowania. Zobacz ten artykuł, aby uzyskać dobre zastosowanie w marketingu i dalsze referencje.

W związku z wyżej wspomnianym kontekstem bayesowskim możesz również przyjrzeć się probabilistycznym modelom graficznym. Ich wyjaśnialność nie opiera się na równaniach regresji, ale na graficznych sposobach modelowania; zobacz „Probabilistyczne modele graficzne: zasady i techniki” Kollera i Friedmana, aby uzyskać doskonały przegląd.

Nie jestem jednak pewien, czy możemy odwoływać się do powyższych metod bayesowskich jako „ogólnie przyjętego dobrego kompromisu”. Mogą nie być do tego wystarczająco znane, zwłaszcza w porównaniu z przykładem elastycznej siatki.

MightyCurious
źródło
Teraz, gdy miałem większą szansę na rozważenie powiązanego dokumentu Ribeiro i in., Chciałbym powiedzieć, że sekcja 2 „Przypadek wyjaśnienia” zawiera użyteczną definicję „wyjaśnialności” i zawiera godna praca, aby podkreślić jej znaczenie i jako taka zasługuje na szerokie przeczytanie w społeczności Data Science.
Robert de Graaf
Chociaż przesłanie mojego pytania nie zostało zaakceptowane w CV, @SeanEaster pomógł mi z tym przydatnym linkiem: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article
Robert de Graaf
3

Czy są powszechnie akceptowane modele uczenia maszynowego jako dobry kompromis między nimi?

Zakładam, że będąc dobrym w przewidywaniu, masz na myśli możliwość dopasowania nieliniowości obecnych w danych, a jednocześnie dość odpornego na nadmierne dopasowanie. Kompromis między interpretowalnością a możliwością przewidywania tych nieliniowości zależy od danych i zadanych pytań. Naprawdę nie ma darmowego lunchu w nauce o danych i żadnego pojedynczego algorytmu nie można uznać za najlepszy dla dowolnego zestawu danych (i to samo dotyczy interpretacji).

Ogólną zasadą powinno być to, że im więcej algorytmów znasz, tym lepiej dla Ciebie, ponieważ możesz łatwiej dostosować się do konkretnych potrzeb.

Gdybym musiał wybrać swoje ulubione zadanie klasyfikacyjne, którego często używam w środowisku biznesowym, wybrałbym siatkę elastyczną do regresji logistycznej . Pomimo silnego założenia, że ​​proces generuje dane, które można łatwo dostosować do danych dzięki warunkowi regularyzacji zachowującemu jego interpretowalność na podstawie podstawowej regresji logistycznej.

Czy istnieje literatura wymieniająca cechy algorytmów, które pozwalają na ich wyjaśnienie?

Sugeruję wybranie dobrze napisanej książki opisującej powszechnie stosowane algorytmy uczenia maszynowego oraz ich zalety i wady w różnych scenariuszach. Przykładem takiej książki mogą być The Elements of Statistics Learning autorstwa T. Hastie, R. Tibshirani i J. Friedman

Zimowy
źródło
3
TBH to była moja frustracja tym dokładnym tekstem - który używa słowa „interpretowalny” wiele razy w odniesieniu do różnych modeli, a na jednym etapie mówi „... aplikacja do eksploracji danych wymaga modeli interpretowalnych. Nie wystarczy po prostu tworzyć prognozy ”(część 10.7), ale nie jestem w stanie znaleźć materiału na temat tego, jak zidentyfikować model do interpretacji - co skłoniło nas do pytania. Chociaż byłem i nie lubię wyglądać krytycznie na tak ceniony tekst. Podobnie artykuł TIbshirani wprowadzający LASSO wymienia „interpretowalne” jako jedną z jego zalet, nie mówiąc, czym jest „interpretowalny”.
Robert de Graaf
1

Być może zobaczę moją odpowiedź dotyczącą nieuzasadnionej skuteczności zespołów oraz kompromisów między wyjaśnieniem a przewidywaniem. Minimalna długość wiadomości (MML, Wallace 2005) podaje formalną definicję wyjaśnień w zakresie kompresji danych i motywuje oczekiwania, że ​​wyjaśnienia na ogół pasują bez nadmiernego dopasowania, a dobre wyjaśnienia generują dobre, generalne prognozy. Ale dotyczy to także formalnej teorii, dlaczego zespoły będą lepiej przewidywać - wynik wraca do (Solomonoff 1964) w sprawie optymalnego przewidywania i nieodłącznego do całkowicie bayesowskiego podejścia: integracja w rozkładzie tylnym, nie tylko wybieranie średniej, mediany, lub tryb.

Ctwardy
źródło