Znaczenie sieci neuronowej jako czarnej skrzynki?

19

Często słyszę ludzi rozmawiających o sieciach neuronowych jako czegoś w rodzaju czarnej skrzynki, której nie rozumiesz, co to znaczy lub co one oznaczają. Właściwie nie rozumiem, co przez to rozumieją! Jeśli rozumiesz, jak działa propagacja wsteczna, jak to jest czarna skrzynka?

Czy oznaczają, że nie rozumiemy, w jaki sposób obliczone wagi lub co?

Jack Twain
źródło
1
Może to pomogłoby: colah.github.io/posts/2014-03-NN-Manifolds-Topology Ten artykuł próbuje odkryć podstawowy mechanizm sieci neuronowych z perspektywy topologicznej, oferuje wiele świetnych spostrzeżeń w celu wyjaśnienia wydajności sieci neuronowe.
Sol
Chciałbym dodać punkt do Jacka, kiedy patrzymy na MLP z punktu widzenia uczenia maszynowego, sieci neuronowe nie są już czarnymi skrzynkami. Dzięki prostej funkcji sigmoidalnej będziemy w stanie interpretować związek wejściowy i wyjściowy za pomocą równania.

Odpowiedzi:

37

Sieć neuronowa jest czarną skrzynką w tym sensie, że chociaż może przybliżać dowolną funkcję, badanie jej struktury nie daje żadnego wglądu w przybliżoną strukturę funkcji.

Jako przykład, jednym z powszechnych zastosowań sieci neuronowych w działalności bankowej jest klasyfikacja kredytobiorców na „dobrych płatników” i „złych płatników”. Masz macierz cech wejściowych (płeć, wiek, dochód itp.) I wektor wyników („niewykonany”, „niewykonany” itp.). Kiedy modelujesz to za pomocą sieci neuronowej, zakładasz, że istnieje funkcja , w odpowiednim znaczeniu funkcji matematycznej. Ta funkcja f może być dowolnie złożona i może się zmieniać w zależności od rozwoju firmy, więc nie można jej uzyskać ręcznie.doRfa(do)=R

Następnie używasz sieci neuronowej do zbudowania aproksymacji która ma wskaźnik błędów akceptowalny dla twojej aplikacji. Działa to, a precyzja może być dowolnie mała - możesz rozbudować sieć, dostroić parametry szkolenia i uzyskać więcej danych, aż precyzja osiągnie twoje cele.fa

Problem czarnej skrzynki brzmi: przybliżenie podane przez sieć neuronową nie daje żadnego wglądu w formę f. Nie ma prostego związku między wagami a przybliżoną funkcją. Nawet analiza tego, która charakterystyka wejściowa jest nieistotna, stanowi otwarty problem (patrz ten link ).

Ponadto, z tradycyjnego punktu widzenia statystyki, sieć neuronowa jest modelem, którego nie można zidentyfikować: biorąc pod uwagę zestaw danych i topologię sieci, mogą istnieć dwie sieci neuronowe o różnych wagach i tym samym wyniku. To bardzo utrudnia analizę.

Jako przykład „modeli innych niż czarna skrzynka” lub „modeli interpretowalnych” masz równania regresji i drzewa decyzyjne. Pierwszy daje przybliżone przybliżenie formy f, w którym znaczenie każdego elementu jest wyraźne, drugi to graficzny opis niektórych względnych ilorazów ryzyka / szans.

Lucas Gallindo
źródło
Ponieważ jest to stara odpowiedź, niektórym może się przydać kilka nowo opracowanych narzędzi: „Przybliżenie podane przez sieć neuronową nie da ci żadnego wglądu w formę f” - powiedziałbym, że SHAP teraz robi świetna robota wyjaśniania modelu, nawet dla sieci neuronowych. „Nawet analiza tego, która charakterystyka wejściowa jest nieistotna, jest otwartym problemem” - mothody, takie jak znaczenie permutacji, a także SHAP, teraz radzą sobie całkiem dobrze z tym problemem.
Bobson Dugnutt
3

Google opublikowało Inception-v3 . Jest to sieć neuronowa (NN) dla algorytmu klasyfikacji obrazu (odgłos kota od psa).

W artykule rozmawiają o aktualnym stanie klasyfikacji obrazów

Na przykład GoogleNet zastosował tylko 5 milionów parametrów, co stanowiło 12-krotną redukcję w stosunku do swojego poprzednika AlexNet, który zastosował 60 milionów parametrów, a ponadto VGGNet zastosował około 3 razy więcej parametrów niż AlexNet

i właśnie dlatego nazywamy NN czarnymi skrzynkami. Jeśli wytrenuję model klasyfikacji obrazu - z 10 milionami parametrów - i przekażę go tobie. Co możesz z tym zrobić?

Z pewnością możesz go uruchomić i klasyfikować obrazy. Będzie działać świetnie! Ale nie możesz odpowiedzieć na żadne z poniższych pytań, badając wszystkie wagi, błędy i strukturę sieci.

  • Czy ta sieć może odróżnić Husky od pudla?
  • Które obiekty są łatwe do sklasyfikowania dla algorytmu, które są trudne?
  • Która część psa jest najważniejsza dla prawidłowej klasyfikacji? Ogon czy stopa?
  • Jeśli sfotografuję koty z głową psa, co się stanie i dlaczego?

Być może możesz odpowiedzieć na pytania, po prostu uruchamiając NN i zobaczyć wynik (czarna skrzynka), ale nie masz żadnej zmiany w zrozumieniu, dlaczego zachowuje się tak, jak w skrajnych przypadkach.

bottiger
źródło
Myślę, że przynajmniej jedno z pytań („Która część psa jest najważniejsza, aby móc ją poprawnie sklasyfikować? Ogon lub stopa?”) Jest dość odpowiedzialna, jeśli spojrzysz na artykuł i wideo Matta Zeilera na dekonwolutitonalny sieci
Alex,