Jak połączyć wyniki regresji logistycznej i losowego lasu?

12

Jestem nowy w uczeniu maszynowym. Zastosowałem regresję logistyczną i losowy las w tym samym zbiorze danych. Dostaję więc zmienne znaczenie (współczynnik bezwzględny dla regresji logistycznej i zmienne znaczenie dla losowego lasu). Myślę o połączeniu tych dwóch, aby uzyskać ostateczną zmienną ważność. Czy ktoś może podzielić się swoim doświadczeniem? Sprawdziłem workowanie, wzmacnianie, modelowanie zespołowe, ale nie są to, czego potrzebuję. Chodzi raczej o łączenie informacji dla tego samego modelu między replikami. To, czego szukam, to połączenie wyników wielu modeli.

użytkownik1946504
źródło
5
Modelowanie zespołowe może również łączyć modele. Weźmy na przykład głosowanie większością głosów. Zobacz także układanie w stosy.
pat
4
Właściwie użycie wielkości współczynników nie jest dobrym sposobem na określenie „zmiennej ważności” w regresji logistycznej. Nawet jeśli spojrzysz na znormalizowane współczynniki, nie jest to dobra metoda. Czemu? Pamiętaj, że współczynniki są jedynie szacunkami i związany jest z nimi błąd. Pobieranie współczynników według rozmiaru oznacza wybranie tych, dla których zawyżono wielkość współczynnika i upuszczenie tych, dla których niedoszacowano wielkość współczynnika.
user765195

Odpowiedzi:

12

Prawdopodobnie zależy to od tego, do czego chcesz użyć importów zmiennych. Czy należy go stosować jako kryterium wyboru cech dla trzeciego modelu klasyfikacji? W takim przypadku można spróbować obliczyć średnią ważoną ważności zmiennych (być może po znormalizowaniu każdego pojedynczego wektora ważności zmiennej do długości jednostki) dla różnych wartości i wagi uśrednionej, a następnie pobrać wartość, która daje najlepszy wynik w walidacji krzyżowej dla końcowego Model.

Jeśli chodzi o połączenie wyników modelu regresji logistycznej i modelu losowego lasu (bez uwzględnienia zmiennych ważności), poniższy post na blogu jest bardzo pouczający i pokazuje, że pojedyncze uśrednienie wyniku jest prostą, ale bardzo skuteczną metodą zbioru dla modeli regresji.

ogrisel
źródło
1
Dziękuję za odpowiedź. Wspomniany blog jest naprawdę interesującym studium. Chyba mam pomysł. Jedyny problem dotyczy jego wzoru na entropię krzyżową. Wygląda inaczej z tym, który znalazłem online. Jego użycie: cross.entropy <- funkcja (cel, przewidywana) {przewidywana = pmax (1e-10, pmin (1-1e-10, przewidywana)) - suma (cel * log (przewidywana) + (1 - cel) * log (1 - przewidywany))}
user1946504
2
a kiedy zastosowałem ten sam pomysł do własnego zestawu danych, użyłem błędu błędnej klasyfikacji jako kryteriów, fabuła nie jest podobna. Losowy las okazuje się znacznie lepszy niż regresja logistyczna. błąd błędnej klasyfikacji RF wynosi 0,2, dla LR 0,4. Jednocześnie AUC dla RF wynosi 0,8, dla LR 0,73.
user1946504
5

(Komentowanie powyższej odpowiedzi i opinii)

Dziękujemy za przeczytanie bloga!

Funkcja błędu entropii krzyżowej ma małe oszustwo, skracając przewidywane wartości do [1e-10, 1-1e-10] jako tani i łatwy sposób zapobiegania błędom w funkcjach dziennika. W przeciwnym razie jest to standardowa formuła.

W przypadku zestawu danych bardzo możliwe jest posiadanie zestawów danych, w których losowy las jest znacznie lepszy od dziennika. reg. i dziennik. reg. nic nie dodaje do zespołu. Upewnij się oczywiście, że używasz danych wstrzymujących - losowy las prawie zawsze będzie miał lepsze wyniki w danych treningowych ze względu na znacznie bardziej efektywne parametry.

OverKAnalytics
źródło