Trudno powiedzieć, nie wiedząc trochę więcej o zestawie danych i tym, jak można go oddzielić od wektora cech, ale prawdopodobnie sugerowałbym użycie ekstremalnego losowego lasu w porównaniu ze standardowymi losowymi lasami ze względu na stosunkowo niewielki zestaw próbek.
Ekstremalne losowe lasy są bardzo podobne do standardowych losowych lasów, z jednym wyjątkiem, że zamiast optymalizacji podziałów na drzewa, ekstremalny losowy las tworzy losowe podziały. Początkowo wydaje się to negatywne, ale ogólnie oznacza, że masz znacznie lepszą generalizację i szybkość, chociaż AUC na twoim zestawie treningowym prawdopodobnie będzie nieco gorszy.
Regresja logistyczna jest również dość solidnym rozwiązaniem dla tego rodzaju zadań, chociaż przy twojej stosunkowo niskiej wymiarowości i małej próbce martwiłbym się zbytnim dopasowaniem. Możesz sprawdzić za pomocą K-Nearest Neighbors, ponieważ często działa bardzo dobrze przy niskich wymiarach, ale zwykle nie radzi sobie zbyt dobrze ze zmiennymi kategorialnymi.
Gdybym musiał wybrać jeden, nie wiedząc więcej o problemie, z pewnością postawiłbym swoje zakłady na ekstremalnie losowy las, ponieważ bardzo prawdopodobne jest, że zapewni on dobre uogólnienie tego rodzaju zbioru danych, a także lepiej obsługuje dane liczbowe i kategoryczne niż większość innych metod.
W przypadku niskich parametrów dość ograniczona wielkość próbki i regresja logistyczna binarnego klasyfikatora powinny być wystarczająco mocne. Możesz użyć bardziej zaawansowanego algorytmu, ale to prawdopodobnie przesada.
źródło
Kiedy zmienne jakościowe są mieszane, sięgam po Lasy Losowej Decyzji, ponieważ bezpośrednio obsługuje zmienne kategoryczne bez transformacji kodowania 1-z-n. To traci mniej informacji.
źródło
Liniowy SVM powinien być dobrym punktem wyjścia. Przejrzyj ten przewodnik, aby wybrać odpowiedni estymator.
źródło
Najpierw nie zalecałbym stosowania złożonych metod. Najpierw stosuj szybsze proste podejścia (kNN, NBC itp.), Następnie przechodź przez regresję liniową, regresję logistyczną, LDA, CART (RF), KREG, a następnie do najmniejszych kwadratów SVM, wznoszenia gradientu SVM, ANN, a następnie metaheurustyka (zachłanny) heurystyczne wspinanie pod górę z GA, inteligencją roju, optymalizacją kolonii mrówek itp.)
źródło