Mam zestaw danych obejmujący 24 wiersze danych miesięcznych. Funkcje obejmują PKB, przyloty na lotnisko, miesiąc i kilka innych. Zmienna zależna to liczba odwiedzających popularny cel turystyczny. Czy Losowy Las byłby odpowiedni na taki problem?
Dane są niepubliczne, więc nie mogę opublikować próbki.
random-forest
small-sample
Hughesdan
źródło
źródło
Odpowiedzi:
Losowy las to w zasadzie drzewka ponownego próbkowania bootowania i drzewa decyzyjne treningu na próbkach, więc odpowiedź na twoje pytanie musi dotyczyć tych dwóch.
Bootstrap resampling to nie lekarstwo dla małych próbek . Jeśli w swoim zestawie danych masz tylko dwadzieścia cztery obserwacje, wówczas każda z próbek pobranych z zastąpienia tych danych składałaby się z nie więcej niż dwudziestu czterech różnych wartości. Przetasowanie skrzynek i nie rysowanie niektórych z nich nie zmieniłoby wiele w twojej zdolności do uczenia się czegoś nowego o podstawowej dystrybucji. Tak więc mała próbka stanowi problem dla bootstrapu.
Drzewa decyzyjne są trenowane poprzez warunkowe dzielenie danych na zmienne predykcyjne, po jednej zmiennej na raz, w celu znalezienia takich podpróbek, które mają największą moc dyskryminacyjną. Jeśli masz tylko dwadzieścia cztery przypadki, powiedz, że gdybyś miał szczęście, a wszystkie podziały były równej wielkości, to z dwoma podziałami skończyłbyś z czterema grupami po sześć przypadków, z podziałem na drzewa, z ośmioma grupami po trzy. Jeśli obliczyłeś średnie warunkowe na próbkach (aby przewidzieć ciągłe wartości w drzewach regresji lub prawdopodobieństwa warunkowe w drzewach decyzyjnych), oparłbyś swój wniosek tylko na tych kilku przypadkach! Podpróbki, których użyłbyś do podjęcia decyzji, byłyby jeszcze mniejsze niż twoje oryginalne dane.
Przy małych próbkach zwykle rozsądne jest stosowanie prostych metod . Co więcej, możesz złapać małą próbkę, używając pouczających priors w ustawieniach bayesowskich (jeśli masz rozsądną wiedzę na temat problemu dotyczącą braku danych), więc możesz rozważyć użycie jakiegoś dostosowanego modelu bayesowskiego.
źródło
Z jednej strony jest to niewielki zestaw danych, a losowy las wymaga dużych ilości danych.
Z drugiej strony może coś jest lepsze niż nic. Nie ma nic więcej do powiedzenia niż „Wypróbuj i zobacz”. Możesz zdecydować, czy dany model jest „dobry”; co więcej, nie możemy powiedzieć, czy któryś model jest odpowiedni do określonego celu (ani nie chcielibyśmy, abyśmy to zrobili - jeśli ponosimy błąd!
źródło