Co sądzisz o zastosowaniu technik uczenia maszynowego, takich jak losowe lasy lub regresja karna (z karą L1 lub L2 lub ich kombinacją) w małych próbach klinicznych, gdy celem jest wyodrębnienie interesujących predyktorów w kontekście klasyfikacji? To nie jest pytanie o wybór modelu, ani nie pytam, jak znaleźć optymalne oszacowania zmiennego efektu / ważności. Nie planuję robić silnego wnioskowania, ale po prostu używać modelowania wielowymiarowego, dlatego unikam testowania każdego predyktora pod kątem wyniku zainteresowania pojedynczo i biorąc pod uwagę ich wzajemne powiązania.
Zastanawiałem się tylko, czy takie podejście zostało już zastosowane w tym szczególnym ekstremalnym przypadku, powiedzmy 20-30 osób z danymi na temat 10-15 zmiennych jakościowych lub ciągłych. Nie jest to dokładnie przypadek i myślę, że problem tutaj jest związany z liczbą klas, które staramy się wyjaśnić (które często nie są dobrze wyważone), i (bardzo) małą n. Zdaję sobie sprawę z ogromnej literatury na ten temat w kontekście bioinformatyki, ale nie znalazłem żadnego odniesienia związanego z badaniami biomedycznymi z fenotypami mierzonymi psychometrycznie (np. W kwestionariuszach neuropsychologicznych).
Wszelkie wskazówki lub wskazówki do odpowiednich dokumentów?
Aktualizacja
Jestem otwarty na wszelkie inne rozwiązania do analizy tego rodzaju danych, np. Algorytm C4.5 lub jego pochodne, metody reguł asocjacyjnych oraz wszelkie techniki eksploracji danych dla klasyfikacji nadzorowanej lub częściowo nadzorowanej.
Odpowiedzi:
Nie widziałem tego również poza bioinformatyką / uczeniem maszynowym, ale być może możesz być pierwszy :)
Jako dobry reprezentant metody z małą próbką z bioinformatyki regresja logistyczna z regularyzacją L1 może być dobrze dopasowana, gdy liczba parametrów jest wykładnicza w liczbie obserwacji, niesymptotyczne przedziały ufności można wykonać przy użyciu nierówności typu Chernoffa (tj. Dudik, (2004) na przykład). Trevor Hastie wykonał pewne prace, stosując te metody do identyfikacji interakcji genów. W poniższej pracy używa go do zidentyfikowania znaczących efektów z modelu z 310 637 regulowanymi parametrami dopasowanymi do próbki 2200 obserwacji
„Analiza asocjacji obejmująca cały genom metodą lasso karała regresję logistyczną” Autorzy: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatics Vol: 25 Wydanie: 6 ISSN: 1367-4803 Data: 03/2009 Strony: 714 - 721
Powiązana prezentacja Victoria Stodden ( Wybór modelu z wieloma zmiennymi więcej niż obserwacjami )
źródło
Miałem bardzo małe zaufanie do uogólnienia wyników analizy eksploracyjnej z 15 predyktorami i wielkością próby 20.
W takich okolicznościach moją radą byłoby na ogół ograniczenie analiz do dwuwymiarowych relacji. Jeśli spojrzysz na bayesowską perspektywę, powiedziałbym, że twoje wcześniejsze oczekiwania są równie ważne, jeśli nie ważniejsze niż dane.
źródło
Jedną z powszechnych zasad jest posiadanie co najmniej 10-krotnej liczby instancji danych treningowych (nie mówiąc już o żadnych danych testowych / walidacyjnych itp.), Ponieważ w klasyfikatorze istnieją regulowane parametry. Pamiętaj, że masz problem, w którym potrzebujesz nie tylko odpowiednich danych, ale także reprezentatywnych danych. Ostatecznie nie ma systematycznej reguły, ponieważ przy podejmowaniu tej decyzji jest tak wiele zmiennych. Jak mówią Hastie, Tibshirani i Friedman w The Elements of Statistics Learning (patrz rozdział 7):
Jeśli jesteś nowy w tej dziedzinie, polecam przeczytanie tego krótkiego dokumentu „Rozpoznawanie wzorców” z Encyklopedii Inżynierii Biomedycznej, który zawiera krótkie podsumowanie niektórych problemów z danymi.
źródło
Mogę zapewnić, że RF zadziałałoby w tym przypadku, a jego miara ważności byłaby dość wnikliwa (ponieważ nie będzie dużego ogona wprowadzających w błąd nieistotnych atrybutów, jak w standardowych (n << p) s). Nie mogę sobie teraz przypomnieć żadnego artykułu dotyczącego podobnego problemu, ale poszukaj go.
źródło
Jeśli masz wejścia dyskretne, piszę program przewidujący brakujące wartości wejścia binarnego, biorąc pod uwagę poprzednie dane wejściowe. Wszelkie kategorie, np. „1 z 6”, można konwertować na binarne bity i będzie działać dobrze; to nie wpłynie na to.
Celem algorytmu, który piszę, jest jak najszybsze nauczenie się matematyki. W związku z tym ma bardzo niską złożoność czasu i przestrzeni (złożoność przestrzeni względem O (4 ^ N) !.
Ale do tego dostajesz w zasadzie naukę jednorazową, dla każdego systemu, którego stan można wyrazić jako wektor bitowy. Na przykład pełny sumator ma 8 różnych stanów wejściowych. Algorytm nauczy się pełnego sumatora po zaledwie 8 różnych próbach treningowych. Nie tylko to, ale możesz następnie udzielić odpowiedzi i poprosić o przewidzenie pytania lub dać mu część odpowiedzi i część pytania, a następnie wypełnić pozostałe.
Jeśli dane wejściowe mają dużo bitów, będzie to wymagało dużej mocy obliczeniowej i pamięci. Ale jeśli masz bardzo mało próbek - a przynajmniej taki jest cel projektu - da ci to najlepsze możliwe prognozy.
Po prostu trenujesz go za pomocą wektorów bitowych, w tym wektora bitowego, którego bity są nieznane. Aby uzyskać prognozę, po prostu podaj mu nieco wektor, które bity są nieznane i które bity chcesz przewidzieć.
Kod źródłowy dostępny tutaj: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/
źródło