Jestem nowy w uczeniu maszynowym. Zastosowałem regresję logistyczną i losowy las w tym samym zbiorze danych. Dostaję więc zmienne znaczenie (współczynnik bezwzględny dla regresji logistycznej i zmienne znaczenie dla losowego lasu). Myślę o połączeniu tych dwóch, aby uzyskać ostateczną zmienną ważność. Czy ktoś może podzielić się swoim doświadczeniem? Sprawdziłem workowanie, wzmacnianie, modelowanie zespołowe, ale nie są to, czego potrzebuję. Chodzi raczej o łączenie informacji dla tego samego modelu między replikami. To, czego szukam, to połączenie wyników wielu modeli.
machine-learning
logistic
random-forest
użytkownik1946504
źródło
źródło
Odpowiedzi:
Prawdopodobnie zależy to od tego, do czego chcesz użyć importów zmiennych. Czy należy go stosować jako kryterium wyboru cech dla trzeciego modelu klasyfikacji? W takim przypadku można spróbować obliczyć średnią ważoną ważności zmiennych (być może po znormalizowaniu każdego pojedynczego wektora ważności zmiennej do długości jednostki) dla różnych wartości i wagi uśrednionej, a następnie pobrać wartość, która daje najlepszy wynik w walidacji krzyżowej dla końcowego Model.
Jeśli chodzi o połączenie wyników modelu regresji logistycznej i modelu losowego lasu (bez uwzględnienia zmiennych ważności), poniższy post na blogu jest bardzo pouczający i pokazuje, że pojedyncze uśrednienie wyniku jest prostą, ale bardzo skuteczną metodą zbioru dla modeli regresji.
źródło
(Komentowanie powyższej odpowiedzi i opinii)
Dziękujemy za przeczytanie bloga!
Funkcja błędu entropii krzyżowej ma małe oszustwo, skracając przewidywane wartości do [1e-10, 1-1e-10] jako tani i łatwy sposób zapobiegania błędom w funkcjach dziennika. W przeciwnym razie jest to standardowa formuła.
W przypadku zestawu danych bardzo możliwe jest posiadanie zestawów danych, w których losowy las jest znacznie lepszy od dziennika. reg. i dziennik. reg. nic nie dodaje do zespołu. Upewnij się oczywiście, że używasz danych wstrzymujących - losowy las prawie zawsze będzie miał lepsze wyniki w danych treningowych ze względu na znacznie bardziej efektywne parametry.
źródło