Niedawno uświadomiłem sobie, że w literaturze omawiane są metody „pozbawione prawdopodobieństwa”. Nie jestem jednak pewien, co to znaczy, że metoda wnioskowania lub optymalizacji jest wolna od prawdopodobieństwa .
W uczeniu maszynowym celem jest zazwyczaj maksymalizacja prawdopodobieństwa, że niektóre parametry dopasują się do funkcji, np. Wagi w sieci neuronowej.
Więc jaka jest dokładnie filozofia podejścia wolnego od prawdopodobieństwa i dlaczego sieci przeciwników, takie jak GAN, należą do tej kategorii?
W szczególności [ostatnie] metody wolne od prawdopodobieństwa to przeredagowanie algorytmów ABC, gdzie ABC oznacza przybliżone obliczenie bayesowskie . Ma to na celu objęcie metod wnioskowania, które nie wymagają użycia funkcji wiarygodności w formie zamkniętej, ale nadal mają na celu zbadanie konkretnego modelu statystycznego. Są wolne od trudności obliczeniowych związanych z prawdopodobieństwem, ale nie od modelu, który wytwarza to prawdopodobieństwo. Zobacz na przykład
źródło
Aby dodać do litanii odpowiedzi, statystyki asymptotyczne są w rzeczywistości wolne od prawdopodobieństw.
„Prawdopodobieństwo” odnosi się tutaj do modelu prawdopodobieństwa danych . Może mnie to nie obchodzi. Ale mogę znaleźć jakiś prosty estymator, taki jak średnia, który jest odpowiednim podsumowaniem danych i chcę wyciągnąć wnioski na temat średniej rozkładu (zakładając, że istnieje, co jest często rozsądnym założeniem).
Według centralnego twierdzenia o granicy średnia ma przybliżony rozkład normalny w dużym N, gdy istnieje również wariancja. Mogę tworzyć spójne testy (moc idzie do 1, gdy N idzie do nieskończoności, gdy null jest fałszem), które mają odpowiedni rozmiar. Chociaż mam model prawdopodobieństwa (który jest fałszem) dla rozkładu próbkowania średniej w skończonych rozmiarach próby, mogę uzyskać prawidłowe wnioskowanie i obiektywne oszacowanie w celu rozszerzenia mojego „użytecznego podsumowania danych” (średnia).
Należy zauważyć, że testy oparte na 95% CI dla mediany (tj. Opcja 6 w odpowiedzi @ kjetilbhalvorsen) również opierają się na centralnym twierdzeniu granicznym, aby wykazać, że są one spójne. Nie jest więc szaleństwem uważać prosty test T za test „nieparametryczny” lub „oparty na braku wiarygodności”.
źródło
Po stronie uczenia maszynowego: w uczeniu maszynowym zwykle próbujesz zmaksymalizować , gdzie jest celem, a jest wejściem (na przykład x może być pewnym przypadkowym szumem, a y jest obrazem ). Jak możemy to zoptymalizować? Typowym sposobem na to jest założenie, że . Jeśli przyjmiemy to, prowadzi to do średniego błędu kwadratu. Zauważ, że przyjęliśmy jako formę dla . Jeśli jednak nie zakładamy żadnej dystrybucji, nazywa się to nauką wolną od prawdopodobieństwa.p(y|x) x y p(y|x)=N(y|μ(x),σ) p ( y | x )p(y|x)
Dlaczego GAN są objęte tym zakresem? Cóż, funkcja Loss jest siecią neuronową, a ta sieć neuronowa nie jest stała, ale uczy się wspólnie. Dlatego nie zakładamy już żadnej formy (poza tym, że należy do rodziny rozkładów, które mogą być reprezentowane przez dyskryminator, ale dla teorii mówimy, że i tak jest to uniwersalny aproksymator funkcji).p(y|x)
źródło