Co to jest badanie ablacyjne? I czy istnieje systematyczny sposób, aby to wykonać?

27

Co to jest badanie ablacyjne? I czy istnieje systematyczny sposób, aby to wykonać? Na przykład mam predyktorów w regresji liniowej, którą nazwiebym jako mój model.n

Jak przeprowadzę do tego badanie ablacyjne? Jakich wskaźników powinienem użyć?

Docenione zostanie kompleksowe źródło lub podręcznik.

cgo
źródło
4
Termin „badanie ablacji” jest często używany w kontekście sieci neuronowych, szczególnie relatywnie złożonych, takich jak R-CNN. Chodzi o to, aby dowiedzieć się o sieci, usuwając jej części i badając jej wydajność. W proponowanej przez ciebie regresji liniowej ablacja naprawdę nie ma sensu - zamieniłaby się w rodzaj procedury selekcji zmiennych krokowych wstecz.
Robert Long

Odpowiedzi:

50

Pierwotne znaczenie „ablacji” to chirurgiczne usunięcie tkanki ciała . Termin „badanie ablacji” ma swoje korzenie w dziedzinie eksperymentalnej neuropsychologii z lat 60. i 70. XX wieku, w której usunięto części mózgów zwierząt, aby zbadać ich wpływ na ich zachowanie.

W kontekście uczenia maszynowego, a szczególnie złożonych głębokich sieci neuronowych, przyjęto „badanie ablacji” w celu opisania procedury usuwania niektórych części sieci, aby lepiej zrozumieć zachowanie sieci.

Pojęcie to zyskało uwagę od czasu tweeta Francoisa Cholleta , głównego autora programu głębokiego uczenia się Keras, w czerwcu 2018 r .:

Badania nad ablacją mają kluczowe znaczenie dla badań nad głębokim uczeniem się - nie można tego wystarczająco podkreślić. Zrozumienie przyczynowości w twoim systemie jest najprostszym sposobem na generowanie rzetelnej wiedzy (cel każdego badania). Ablacja jest bardzo łatwym sposobem na zbadanie przyczynowości.

Jeśli podejmiesz jakąkolwiek skomplikowaną eksperymentalną konfigurację głębokiego uczenia, istnieje szansa, że ​​możesz usunąć kilka modułów (lub zastąpić niektóre wyszkolone funkcje losowymi) bez utraty wydajności. Pozbądź się hałasu w procesie badawczym: wykonaj badania ablacyjne.

Nie możesz w pełni zrozumieć swojego systemu? Wiele ruchomych części? Chcesz się upewnić, że powód jego działania jest naprawdę związany z twoją hipotezą? Spróbuj usunąć rzeczy. Poświęć przynajmniej ~ 10% czasu na eksperymenty na szczery wysiłek, aby obalić swoją tezę.

Jako przykład Girshick i współpracownicy (2014) opisują system wykrywania obiektów, który składa się z trzech „modułów”: Pierwszy proponuje regiony obrazu, w których należy szukać obiektu przy użyciu algorytmu Selektywnego wyszukiwania ( Uijlings i współpracownicy 2012 ), który zasila dużą sieć splotową neuronową (z 5 warstwami splotowymi i 2 w pełni połączonymi warstwami), która wykonuje ekstrakcję cech, która z kolei zasila zestaw maszyn wektora nośnego do klasyfikacji. Aby lepiej zrozumieć system, autorzy przeprowadzili badanie ablacyjne, w którym usunięto różne części systemu - na przykład usunięcie jednej lub obu w pełni połączonych warstw CNN spowodowało zaskakująco niewielką utratę wydajności, co pozwoliło autorom dojść do wniosku

Znaczna część siły reprezentacyjnej CNN pochodzi z warstw splotowych, a nie z dużo większych, gęsto połączonych warstw.

PO prosi o szczegóły / jak / przeprowadzić badanie ablacji oraz o wyczerpujące odniesienia. Nie wierzę, że istnieje odpowiedź „jeden rozmiar dla wszystkich”. Wskaźniki mogą się różnić w zależności od zastosowania i typów modeli. Jeśli zawęzimy problem do jednej głębokiej sieci neuronowej, stosunkowo łatwo jest zauważyć, że możemy usuwać warstwy w zasadniczy sposób i badać, w jaki sposób zmienia to wydajność sieci. Poza tym w praktyce każda sytuacja jest inna, a w świecie dużych złożonych aplikacji do uczenia maszynowego będzie to oznaczać, że dla każdej sytuacji może być potrzebne unikalne podejście.

W kontekście przykładu w OP - regresja liniowa - badanie ablacji nie ma sensu, ponieważ wszystko, co można „usunąć” z modelu regresji liniowej, to niektóre z predyktorów. Robienie tego w sposób „oparty na zasadach” jest po prostu odwrotną, krokową procedurą selekcji, co jest zasadniczo niezadowolone - patrz tutaj , tutaj i tutaj po szczegóły. Procedura regularyzacji, taka jak Lasso, jest znacznie lepszą opcją dla regresji liniowej.

Refs:

Girshick, R., Donahue, J., Darrell, T. i Malik, J., 2014. Bogate hierarchie funkcji do dokładnego wykrywania obiektów i segmentacji semantycznej. W materiałach z konferencji IEEE na temat wizji komputerowej i rozpoznawania wzorców (str. 580-587).

Uijlings, JR, Van De Sande, KE, Gevers, T. and Smeulders, AW, 2013. Selektywne poszukiwanie rozpoznawania obiektów. International Journal of Computer Vision, 104 (2), ss.154-171.

Robert Long
źródło
1
@cgo Czy to odpowiada na twoje pytanie? Jeśli tak, proszę zaznaczyć to jako zaakceptowaną odpowiedź ...
Robert Long,