Czy ktoś może praktycznie wyjaśnić uzasadnienie nieczystości Giniego w stosunku do zdobywania informacji (na podstawie Entropii)? Której metryki lepiej użyć w różnych scenariuszach podczas korzystania z drzew
Drzewo decyzyjne to narzędzie wspomagające podejmowanie decyzji, które wykorzystuje podobny do drzewa wykres lub model decyzji i ich możliwe konsekwencje, w tym wyniki zdarzeń losowych, koszty zasobów i użyteczność. Jest to jeden ze sposobów wyświetlania algorytmu.
Czy ktoś może praktycznie wyjaśnić uzasadnienie nieczystości Giniego w stosunku do zdobywania informacji (na podstawie Entropii)? Której metryki lepiej użyć w różnych scenariuszach podczas korzystania z drzew
Mam problem z zastosowaniem drzewa decyzyjnego / losowego lasu. Próbuję dopasować problem, który zawiera zarówno liczby, jak i ciągi znaków (takie jak nazwa kraju). Teraz biblioteka scikit-learn przyjmuje tylko liczby jako parametry, ale chcę wstrzyknąć ciągi, a także niosą one znaczną ilość...
Nie byłem pewien kilku pojęć: XGBoost przekształca słabych uczniów w silnych uczniów. Jaka jest zaleta robienia tego? Łączenie wielu słabych uczniów zamiast korzystania z jednego drzewa? Losowy las używa różnych próbek z drzewa do utworzenia drzewa. Jaka jest zaleta tej metody zamiast używania...
Ostatnio mój przyjaciel został zapytany, czy algorytmy drzewa decyzyjnego są algorytmami liniowymi czy nieliniowymi w wywiadzie. Próbowałem poszukać odpowiedzi na to pytanie, ale nie znalazłem satysfakcjonującego wyjaśnienia. Czy ktoś może odpowiedzieć i wyjaśnić rozwiązanie tego pytania? Jakie są...
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez...
Poniższa funkcja przewidywania podaje również wartości -ve, więc nie może to być prawdopodobieństwo. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) I...
W jakich przypadkach lepiej jest użyć drzewa decyzyjnego, a innych - KNN? Po co używać jednego z nich w niektórych przypadkach? A drugi w różnych przypadkach? (Patrząc na jego funkcjonalność, a nie na algorytm) Czy ktoś ma jakieś wyjaśnienia lub odniesienia na ten
Mam dwa pytania dotyczące drzew decyzyjnych: Jeśli mamy ciągły atrybut, jak wybrać wartość podziału? Przykład: Wiek = (20,29,50,40 ....) Wyobrazić, że mają ciągłą atrybutu , które mają wartości R . Jak napisać algorytm, który znajdzie punkt podziału v , aby po podzieleniu f przez v uzyskaliśmy...
Pracuję nad problemem klasyfikacji. Mam zestaw danych zawierający taką samą liczbę zmiennych jakościowych i zmiennych ciągłych. Skąd będę wiedział, jakiej techniki użyć? między drzewem decyzyjnym a regresją logistyczną? Czy słusznie jest założyć, że regresja logistyczna będzie bardziej odpowiednia...
Problem 1: Jestem zdezorientowany opisem LightGBM dotyczącym sposobu, w jaki drzewo jest rozwijane. Stanowią one: Większość algorytmów uczenia się drzew decyzyjnych rośnie według poziomów (głębokości), jak na poniższym obrazku: Pytania 1 : Jakie „większość” algorytmów stosuje się w ten...
W przypadku sieci neuronowych mamy uniwersalne twierdzenie aproksymacyjne, które stwierdza, że sieci neuronowe mogą aproksymować dowolną funkcję ciągłą na zwartym podzbiorze .RnRnR^n Czy istnieje podobny wynik dla drzew ze wzmocnieniem gradientu? Wydaje się to rozsądne, ponieważ można dodawać...
Jeśli trenuję mój model przy użyciu następującego kodu: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target =...
Mam zestaw danych, który ma atrybut klasy binarnej. Istnieje 623 przypadki z klasą +1 (rak dodatni) i 101 671 przypadków z klasą -1 (rak ujemny). Wypróbowałem różne algorytmy (Naive Bayes, Random Forest, AODE, C4.5) i wszystkie mają niedopuszczalne współczynniki fałszywie ujemnych. Losowy las ma...
Załóżmy, że mam gładką funkcję, taką jak . Mam zestaw treningowy D ⊊ { ( ( x , y ) , f ( x , y ) ) | ( x , y ) ∈ R 2 } i, oczywiście, nie znam f, chociaż mogę ocenić f gdziekolwiek chcę.fa( x , y) = x2)+ y2)f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D...
Mam zestaw danych zawierający 20000 próbek, z których każda ma 12 różnych funkcji. Każda próbka należy do kategorii 0 lub 1. Chcę trenować sieć neuronową i las decyzyjny, aby kategoryzować próbki, aby móc porównać wyniki i obie techniki. Pierwszą rzeczą, na którą natknąłem się, jest właściwa...
Próbuję zrozumieć, jak w pełni zrozumieć proces decyzyjny modelu klasyfikacji drzewa decyzyjnego zbudowanego za pomocą sklearn. Dwa główne aspekty, na które patrzę, to reprezentacja drzewa grafviz oraz lista ważniejszych cech. To, czego nie rozumiem, to sposób, w jaki znaczenie funkcji jest...