Załóżmy, że mam dwie grupy danych, oznaczone A i B (każda zawiera np. 200 próbek i 1 cechę), i chcę wiedzieć, czy są one różne. Mógłbym:
a) wykonać test statystyczny (np. test t), aby sprawdzić, czy są statystycznie różne.
b) korzystać z nadzorowanego uczenia maszynowego (np. klasyfikatora wektorów wsparcia lub losowego klasyfikatora lasu). Mogę to wyszkolić na części moich danych i zweryfikować na pozostałych. Jeśli następnie algorytm uczenia maszynowego poprawnie klasyfikuje resztę, mogę być pewien, że próbki są rozróżnialne.
c) użyj nienadzorowanego algorytmu (np. K-Means) i pozwól mu podzielić wszystkie dane na dwie próbki. Następnie mogę sprawdzić, czy te dwie znalezione próbki zgadzają się z moimi etykietami, A i B.
Moje pytania to:
- W jaki sposób te trzy różne sposoby nakładają się / wykluczają?
- Czy b) ic) są użyteczne dla jakichkolwiek naukowych argumentów?
- Jak mogę uzyskać „znaczenie” dla różnicy między próbkami A i B z metod b) ic)?
- Co zmieniłoby się, gdyby dane miały wiele funkcji, a nie jedną?
- Co się stanie, jeśli będą zawierać inną liczbę próbek, np. 100 vs 300?
Odpowiedzi:
Świetne pytanie. Wszystko może być dobre lub złe, przydatne lub nie, w zależności od twoich celów (i być może od charakteru twojej sytuacji). W większości metody te mają na celu spełnienie różnych celów.
Mając to na uwadze, odpowiedzmy na twoje pytania:
źródło
Nie zajmę się klastrowaniem, ponieważ zostało to rozwiązane w innych odpowiedziach, ale:
Zasadniczo problem testowania, czy dwie próbki są znacząco różne, jest znany jako testowanie dwóch próbek .
Łatwiej pomyśleć o niektórych z tych problemów, jeśli skonstruujesz test z dwiema próbkami z klasyfikatora, np. Jak niedawno zaproponowali Lopez-Paz i Oquab (2017) . Procedura jest następująca:
Sprawdzając wyuczony klasyfikator, możesz być w stanie zinterpretować różnice między rozkładami w pół-znaczący sposób. Zmieniając rodzinę klasyfikatorów, którą rozważasz, możesz także pomóc w przeprowadzeniu testu w poszukiwaniu pewnych różnic.
Zauważ, że ważne jest, aby dokonać podziału testu na pociąg: w przeciwnym razie klasyfikator, który właśnie zapamiętałby swoje dane wejściowe, zawsze miałby doskonałą dyskryminację. Zwiększenie części punktów w zestawie treningowym daje więcej danych do nauki dobrego klasyfikatora, ale mniej okazji, aby mieć pewność, że dokładność klasyfikacji naprawdę różni się od przypadku. Ta kompromis będzie się różnić w zależności od problemu i rodziny klasyfikatorów i nie jest jeszcze dobrze zrozumiana.
Lopez-Paz i Oquab wykazali dobre wyniki empiryczne tego podejścia w kilku problemach. Ramdas i in. (2016) dodatkowo wykazali, że teoretycznie ściśle powiązane podejście jest optymalne dla jednego konkretnego prostego problemu. „Właściwą” rzeczą do zrobienia w tym otoczeniu jest obszar aktywnych badań, ale takie podejście jest co najmniej uzasadnione w wielu ustawieniach, jeśli chcesz nieco większej elastyczności i interpretacji niż tylko zastosowanie standardowego testu.
źródło
Tylko podejście (a) służy do testowania hipotezy.
W przypadku stosowania nadzorowanych algorytmów uczenia maszynowego (b) nie mogą one ani udowodnić, ani obalić hipotezy o dystansowaniu grup. Jeśli algorytm uczenia maszynowego nie klasyfikuje grup poprawnie, może się to zdarzyć, ponieważ użyłeś „niewłaściwego” algorytmu dla swojego problemu lub nie dostroiłeś go wystarczająco, itp. Z drugiej strony możesz „torturować” całkowicie „losowe” dane wystarczająco dużo, aby stworzyć model dopasowania, który daje dobre prognozy. Jeszcze innym problemem jest to, kiedy i skąd wiadomo, że algorytm dokonuje „dobrych” prognoz? Prawie nigdy nie dążyłbyś do 100% dokładności klasyfikacji, więc kiedy wiesz, że wyniki klasyfikacji coś udowadniają?
Algorytmy grupowania (c) nie są zaprojektowane do uczenia nadzorowanego. Nie mają na celu odtworzenia etykiet, ale zgrupowania danych pod względem podobieństw. Teraz wyniki zależą od używanego algorytmu i jakiego rodzaju podobieństw szukasz. Twoje dane mogą mieć różne podobieństwa, możesz szukać różnic między chłopcami i dziewczętami, ale algorytm może zamiast tego znaleźć grupy biednych i bogatych dzieci lub inteligentnych i mniej inteligentnych, prawo- i leworęcznych itp. Nie znajdowanie grupa, którą zamierzałeś, nie dowodzi, że grupa nie ma sensu, a jedynie, że znalazła inne „znaczące” grupowanie. Podobnie jak w poprzednim przypadku, wyniki mogą zależeć od zastosowanego algorytmu i parametrów. Czy pasowałoby Ci, gdyby jeden na dziesięć algorytmów / ustawień znalazł „Twój” etykiety? Co jeśli byłby to jeden na sto? Jak długo szukałeś przed zatrzymaniem? Zauważ, że podczas korzystania z uczenia maszynowego w zdecydowanej większości przypadków nie przestaniesz korzystać z jednego algorytmu z ustawieniami domyślnymi, a wynik może zależeć od zastosowanej procedury.
źródło
a) odpowiada tylko na pytanie, czy rozkład jest inny, ale nie sposób ich rozróżnienia. b) znajdzie również najlepszą wartość do rozróżnienia między tymi dwoma rozkładami. c) będzie działać, jeśli te dwie dystrybucje mają określone właściwości. Na przykład będzie działał z rozkładem normalnym, ale nie z niektórymi dwoma rozkładami modalnymi, ponieważ metoda może rozróżnić dwa tryby tej samej grupy zamiast dwóch różnych grup.
c) nie jest użyteczny dla argumentów naukowych z powodu dwóch rozkładów modalnych. b) może być wykorzystany do rozróżnienia dwóch rozkładów, ponieważ można obliczyć znaczenie (patrz 3.). Chociaż nigdy go nie spotkałem.
Przez ładowanie. Obliczasz model na podstawie losowych podpróbek 1000 razy. Otrzymujesz wynik, na przykład minimalną sumę błędów alfa i beta. Sortujesz wynik rosnąco. Dla 5% pewności wybierasz 950. wartość. Jeśli ta wartość jest mniejsza niż 50% (dla równej liczby punktów dla grupy A i B), to z 95% pewnością można pominąć hipotezę zerową, że rozkłady są takie same. Problem polega na tym, że jeśli oba rozkłady są normalne, mają tę samą średnią, ale mają inną odmianę, nie będziesz w stanie zrozumieć, że różnią się one technikami ML. Z drugiej strony można znaleźć test wariacyjny, który będzie w stanie rozróżnić dwa rozkłady. I może być na odwrót, że ML będzie silniejszy niż test statystyczny i będzie w stanie rozróżnić rozkłady.
Jeśli masz tylko jedną funkcję w ML, musisz znaleźć tylko jedną wartość, aby rozróżnić rozkłady. Dzięki dwóm funkcjom granica może być zatoką, aw przestrzeni wielowymiarowej może być naprawdę dziwna. Dlatego trudniej będzie znaleźć właściwą granicę. Z drugiej strony dodatkowe funkcje przynoszą dodatkowe informacje. Ogólnie pozwoli to łatwiej rozróżnić dwie dystrybucje. Jeśli obie zmienne są normalnie rozmieszczone, wówczas granica jest linią.
Mniejsze próbki mogą zachowywać się normalnie, ponieważ nie można zastosować Twierdzenia o granicy centralnej. Większa próbka zaczyna zachowywać się normalnie, ponieważ zaczyna działać Twierdzenie o granicy centralnej. Na przykład średnia z obu grup będzie prawie normalnie rozłożona, jeśli próbka jest wystarczająco duża. Ale zwykle nie jest to 100 vs 300, ale 10 obserwacji na 1000 obserwacji. Zatem według tej strony test t dla różnicy średniej będzie działał niezależnie od rozkładu, jeśli liczba obserwacji będzie większa niż 40 i bez wartości odstających.
źródło
Testy statystyczne służą do wnioskowania na podstawie danych, informują o tym, jak rzeczy są powiązane. Rezultatem jest coś, co ma rzeczywiste znaczenie. Np. Jak palenie jest związane z rakiem płuc, zarówno pod względem kierunku, jak i wielkości. To wciąż nie mówi, dlaczego coś się stało. Aby odpowiedzieć na pytanie, dlaczego tak się stało, musimy również wziąć pod uwagę wzajemne powiązania z innymi zmiennymi i dokonać odpowiednich korekt (patrz Pearl, J. (2003).
Nadzorowane uczenie się służy do przewidywania, mówi ci, co się stanie. Np. Biorąc pod uwagę status osoby palącej, możemy przewidzieć, czy ona / ona będzie miała raka płuc. W prostych przypadkach nadal mówi „jak”, na przykład patrząc na ograniczenie statusu palenia, które zostało zidentyfikowane przez algorytm. Ale bardziej złożone modele są trudniejsze lub niemożliwe do interpretacji (głębokie uczenie się / ulepszanie z wieloma funkcjami).
Uczenie się bez nadzoru jest często wykorzystywane do ułatwienia dwóch powyższych.
Gdy liczba funkcji / zmiennych staje się większa, różnica między testowaniem statystycznym a nadzorowanym uczeniem się staje się bardziej znacząca. Testy statystyczne niekoniecznie skorzystają z tego, zależy to na przykład od tego, czy chcesz wnioskować przyczynowo poprzez kontrolowanie innych czynników, czy identyfikowanie heterogeniczności w powiązaniach, jak wspomniano powyżej. Nadzorowane uczenie się będzie działać lepiej, jeśli funkcje są odpowiednie, i stanie się bardziej jak czarna skrzynka.
Gdy liczba próbek się powiększy, możemy uzyskać bardziej precyzyjne wyniki badań statystycznych, dokładniejsze wyniki w przypadku uczenia nadzorowanego i bardziej wiarygodne w przypadku uczenia się bez nadzoru. Ale to zależy od jakości danych. Dane złej jakości mogą wprowadzać błędy lub szum w wynikach.
Czasami chcemy wiedzieć, „jak” i „dlaczego”, aby informować o działaniach interwencyjnych, np. Poprzez identyfikację, że palenie powoduje raka płuc, można podjąć odpowiednie kroki, aby sobie z tym poradzić. Czasami chcemy wiedzieć, „co” w podejmowaniu decyzji, np. Dowiedzieć się, kto może mieć raka płuc i zapewnić im wczesne leczenie. Na stronie Science opublikowano specjalne wydanie dotyczące prognozowania i jego ograniczeń ( http://science.sciencemag.org/content/355/6324/468). „Sukces wydaje się być osiągany najbardziej konsekwentnie, gdy pytania są podejmowane w interdyscyplinarnych wysiłkach, które łączą ludzkie rozumienie kontekstu z algorytmiczną zdolnością do radzenia sobie z terabajtami danych.” Moim zdaniem, na przykład, wiedza odkryta za pomocą testowania hipotez może pomóc w nadzorowanym uczeniu się, informując nas jakie dane / funkcje powinniśmy gromadzić w pierwszej kolejności. Z drugiej strony nadzorowane uczenie się może pomóc w generowaniu hipotez poprzez informowanie, które zmienne
źródło